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Kurzfassung 


Die Qualität und Leistungsfähigkeit von Bauteilen wird wesentlich von der 
Ausführung der beteiligten Fertigungsprozesse bestimmt. Das Prozessergeb- 
nis hängt — neben dem Anfangszustand des Bauteils und des Prozesses — von 
dem Prozessverlauf ab. Bei vielen Fertigungsprozessen kann der Prozessver- 
lauf durch zeitlich veränderliche Stellgrößen maßgeblich bestimmt werden. 
Die Optimierung dieser zeitveränderlichen Größen mit Hinsicht auf die Qua- 
lität des Bauteils ist Gegenstand dieser Arbeit. Die Bauteilqualität ergibt sich 
zum einen aus den makroskopischen Eigenschaften des erzeugten Bauteils und 
zum anderen aus der Material-Struktur am Ende des Fertigungsprozesses. Bei- 
des lässt sich häufig erst im Anschluss an die Prozessausführung, in Form einer 
Qualitätskontrolle, beurteilen und quantifizieren. Prozesspfade sind Sequenzen 
von Werten der Stellgrößen, die in dieser Arbeit mit Hinsicht auf die Ergebnis- 
qualität optimiert werden. Reale Prozesse sind nicht vollständig determiniert, 
sondern hängen auch von während des Prozesses schwankenden Prozessbedin- 
gungen ab, die häufig nicht direkt messbar sind. Somit können keine allgemein 
gültigen, optimalen Prozesspfade ermittelt werden. Die Optimierung der Stell- 
größen muss vielmehr während der Prozessausführung erfolgen und stellt dann 
ein Problem der optimalen Regelung dar, wo anstelle der Prozesspfade Rege- 
lungsstrategien treten. Diese sind Abbildungen von beobachteten Größen auf 
Stellgrößen, welche in Hinsicht auf das Prozessergebnis optimiert werden. Her- 
kömmliche Methoden zur optimalen Regelung setzen meist ein Prozessmodell 
voraus, das gleichzeitig effizient zu berechnen und ausreichend akkurat bezüg- 
lich der Aufgabenstellung sein muss. Dies stellt insbesondere bei komplexen 


nicht-linearen Fertigungsprozessen eine hohe Hürde dar. Ziel der vorliegenden 


Kurzfassung 


Arbeit ist deshalb die Entwicklung und Untersuchung von modellfreien Metho- 
den, die selbstständig optimale Regelungsstrategien von Fertigungsprozessen 
in Hinsicht auf die Ergebnisqualität lernen. Die Basis für derartige Methoden 
findet sich in Bereichen des bestärkenden maschinellen Lernens und der adap- 
tiven dynamischen Programmierung. 

Zur Erreichung dieses übergreifenden Ziels werden in der Arbeit zwei Pro- 
blemklassen, (a) die Optimierung von Regelungsstrategien partiell beobacht- 
barer Fertigungsprozesse (bei denen stellvertretend für den Prozesszustand nur 
einige, davon abhängige Messgrößen vorliegen) unter variierenden Einflüssen 
und (b) die Struktur-geleitete Optimierung von Fertigungsprozessen (bei de- 
nen die Herstellung einer gegebenen Material-Struktur angestrebt wird) defi- 
niert und Methoden des bestärkenden Lernens zur Lösung dieser Problemklas- 
sen gegenüber dem Stand der Forschung fortentwickelt und untersucht. Dabei 
werden weitere besondere Aufgabenstellungen in dem Kontext des übergrei- 
fenden Ziels, insbesondere die Entscheidungsoptimierung unter sich ändernden 
Zielvorgaben und die dateneffiziente Entscheidungsoptimierung bei mehreren 
äquivalenten Zielen, adressiert. 

Die entwickelten, generischen Methoden werden für Prozesse der Metallverar- 
beitung ausgeprägt und in einer virtuellen Surrogat-Umgebung experimentell 
untersucht. Die physikalische Simulation eines Tiefziehprozesses wird durch 
Module zur Simulation der variierenden Prozesseinflüsse und der partiellen 
Beobachtbarkeit erweitert und bildet die Basis der Untersuchungen der Lö- 
sungsmethoden für die Problemklasse (a). Die Simulation eines Metall-Bear- 
beitungsprozesses zur einachsigen Deformation in beliebige Richtungen bildet 
die Basis der Untersuchungen zur Struktur-geleiteten Optimierung. Die Ergeb- 
nisse der Untersuchungen zeigen die Leistungsfähigkeit der entwickelten Me- 
thoden im Vergleich zu klassischen Basismethoden. Neben der Leistungsfähig- 
keit werden die Dateneffizienz und die Robustheit gegenüber Parameterausprä- 
gungen der entwickelten Methoden gezeigt und die Auswirkungen einzelner 


entwickelter Methodenbestandteile auf die Ergebnisse untersucht. 


Abstract 


The quality and performance of components depend to a large extent on the 
execution of the Industrial processes involved in manufacturing. In addition to 
the initial conditions of the component and the process, the process result de- 
pends on the course of the process. In many manufacturing processes, the cour- 
se of the process can be significantly determined by time-varying manipulated 
variables. The optimization of these time-dependent quantities with regard to 
the quality of the component is the subject of this work. The component quali- 
ty results from the properties of the manufactured component and the achieved 
material-structure at the end of the manufacturing process. Usually, both can 
only be assessed and quantified after the execution of the industrial process. 
Process paths are sequences of values of the manipulated variables that are 
optimized in this thesis with regard to the quality of the process results. The 
behavior of real processes is not deterministic but depends on process condi- 
tions that fluctuate during the process and are often not directly measurable. 
In this case, no generally valid optimal process path can be determined. The 
optimization of the manipulated variables must rather take place during the 
process execution, and instead of process paths, control strategies are optimi- 
zed. These are mappings of observed variables to manipulated variables, which 
are optimized with respect to the process result. Conventional methods for such 
optimal control problems usually require a process model, which must be effi- 
cient to compute and at the same time sufficiently accurate with regard to the 
task at hand. This is a major hurdle, especially when dealing with complex, 
non-linear manufacturing processes. The aim of the present work is therefore 


the development and investigation of model-free methods that autonomously 


iii 


Abstract 


learn optimal control strategies for industrial manufacturing processes with re- 
spect to the quality of process results. The basis for such methods can be found 
in the areas of reinforcement learning and adaptive dynamic programming. 

To achieve this overall objective, two problem classes are defined in the thesis: 
(a) the optimization of control strategies of partially observable industrial ma- 
nufacturing processes (where, instead of the process state, only a set of depen- 
dent measured variables are available) under varying process influences and (b) 
the structure-guided optimization of industrial manufacturing processes (with 
the aim of producing prescribed material structures). New reinforcement lear- 
ning methods are developed and investigated to solve these problem classes. 
Further special tasks in the context of the overall objective are addressed. In 
particular, the decision optimization under changing target specifications and 
the data-efficient decision optimization with multiple equivalent targets. 
Developed methods are applied to optimize metalworking processes and are 
experimentally investigated in a virtual surrogate environment. The physical 
simulation of a deep-drawing process is expanded by modules for simulating 
the varying process influences and partial observability as the basis of the in- 
vestigation of the solution methods for problem class (a). The simulation of 
a metalworking process for uniaxial deformation in arbitrary directions serves 
as the basis of the investigations for developed structure-guided optimization 
methods. The investigation results show the performance of the developed me- 
thods compared to classic basic methods. In addition to the performance, the 
data efficiency and the robustness to parameter expressions of the developed 
methods are examined and the effects of individual method components on the 


results are investigated in ablation studies. 
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1 Einleitung 


Gegenstand dieser Arbeit ist die Entwicklung und Untersuchung von modell- 
freien Methoden zum autonomen Lernen von optimalen Regelungsstrategien 
für Fertigungsprozesse mit endlichem Zeithorizont. 

Maschinelle Prozesse zur Fertigung von Bauteilen sind wesentlicher Bestand- 
teil der wirtschaftlichen Wertschöpfung. In Fertigungsprozessen werden Werk- 
stoffe oder Werkstücke im Prozessverlauf in ihrem Zustand so verändert, dass 
sich am Ende des Prozesses, gewünschte Eigenschaften ergeben. Am Ende ei- 
ner Ausführung der in der Arbeit behandelten Fertigungsprozesse findet eine 
automatisierte quantitative Bewertung der Qualität des erzeugten Werkstücks 
beziehungsweise des erzeugten Materials statt. 

Der Prozessverlauf und damit die Qualität des Prozessergebnisses hängt ne- 
ben einer Menge zeitunabhängiger Prozessparameter auch von zeitabhängigen 
Stellgrößen des Prozesses ab. Ist der Prozesszustand ausreichend messbar, die 
Funktionsweise des Prozesses ausreichend bekannt und sind feste, daraus fol- 
gende Sollwerte messbarer Größen vorgegeben, können die Stellgrößen durch 
klassische Regelungsverfahren bestimmt werden. Sollwerte werden dabei im 
Vorhinein so festgelegt, dass unter anderem die Qualität des Prozessergebnis- 
ses sichergestellt ist. Die genannten Bedingungen sind häufig nicht erfüllt. Ins- 
besondere bei komplexen nicht-linearen Fertigungsprozessen sind die Zusam- 
menhänge zwischen Stellgrößen und Ergebnisqualität häufig zu komplex, um 
Sollwerte im Vorhinein bestimmen zu können. Eine Möglichkeit, mit diesen 
Fällen umzugehen ist die Definition einer Gütefunktion anstelle der Sollwerte 


und die Betrachtung der Regelung als Optimierungsproblem. 


1 Einleitung 


In der Praxis werden zur Lösung dieser Optimierungsprobleme, der sogenann- 
ten optimalen Regelung, tiblicherweise Verfahren der modellprddiktiven Re- 
gelung verwendet, die auf einem Prozessmodell basierend in jedem Prozess- 
schritt ein lokales Optimierungsproblem lösen. Dies erfordert ein Modell des 
Fertigungsprozesses, das gleichzeitig ausreichend genau das Prozessverhal- 
ten wiederspiegelt und ausreichend schnell ist, um die Prozessregelung nicht 
zu verzögern. Zeitlich veränderliche, äußere Einflüsse auf das Prozessverhal- 
ten (wie Werkzeugverschleiß, Material- und Hilfsmittelveränderungen) müs- 
sen bekannt sein und bei einer akkuraten Modellbildung berücksichtigt wer- 
den, wenn die modellbasierte optimale Regelung diese adaptieren soll. Pro- 
zessmodelle die diesen Anforderungen genügen sind für die meisten realen 
Fertigungsprozesse nicht verfügbar. 

In dieser Arbeit werden deshalb Methoden untersucht, die ohne derartige Pro- 
zessmodelle auskommen und somit auch in Situationen anwendbar sind, in 
denen der Aufwand für die Modellierung oder der rechnerische Aufwand für 
die Anwendung ausreichend akkurater Prozessmodelle in der optimalen Re- 
gelung zu hoch ist. Die entwickelten modellfreien Methoden lernen während 
der Prozessausführung eine optimale Regelungsstrategie für die spezifischen 
Bedingungen des Fertigungsprozesses. 

Als Regelungsstrategie wird in dieser Arbeit eine Abbildung von Zuständen s 
des Fertigungsprozesses auf Stellgrößen bezeichnet. Der Terminologie des be- 
stärkenden Lernens folgend, werden Stellgrößen im Folgenden als (Regelungs- 
)Aktionen a bezeichnet. Das Ziel bei der Optimierung der Regelungsstrategie 
ist die Maximierung einer quantitativen Bewertung der Ergebnis-Qualität. Ei- 
ne optimale Regelungsstrategie zeichnet sich dadurch aus, dass sie für jeden 
Zustand s auf diejenige Aktion a abbildet, die in Bezug auf die erwartete Er- 
gebnis-Qualität des Prozesses optimal ist. 

In der Arbeit behandelte Fertigungsprozesse erzeugen ein Werkstück oder ein 
Material in mehreren aufeinanderfolgenden Verarbeitungsschritten mit Rege- 


lungsaktionen a und sind als Markov-Entscheidungsprozess modelliert. Bei 


1 Einleitung 


den betrachteten Prozessen handelt es sich um Entscheidungsprozesse mit end- 
lichem Zeithorizont, bei denen der Einfluss der aktuellen Regelungsaktionen 
auf zukünftige Prozesszustände zeitlich begrenzt ist. Das Verhalten von Fer- 
tigungsprozessen hängt neben den Regelungsaktionen häufig von unbekann- 
ten, variierenden Prozessbedingungen ab, die nicht oder nur indirekt messbar 
sind. Darüber hinaus sind Messungen meist mit einer Messunsicherheit verse- 
hen. Das Ergebnis einer Aktion, über welche entschieden wird, ist dann nicht 
präzise vorhersagbar. Der Fertigungsprozess wird in diesem Fall als partiell- 
beobachtbarer Markov-Entscheidungsprozess betrachtet. 

Das Lernen von Regelungsstrategien, wie sie in dieser Arbeit behandelt wird, 
kann damit als Spezialfall hinsichtlich der optimalen Regelung stochastischer 
Systeme angesehen werden. Im Unterschied zu klassischen Anwendungsfällen 
der optimalen Regelung sind dabei Gütefunktionswerte nicht in jedem Zeit- 
schritt, sondern lediglich am Ende einer Prozessausführung in Form der Quali- 
täts-Bewertung gegeben. Im Fall eines deterministischen Prozesses mit gleich- 
bleibendem Startzustand reduziert sich die optimale Regelungsstrategie wieder 
zu einem optimalen Prozesspfad. 

Die in dieser Arbeit entwickelten und untersuchten Verfahren zum autono- 
men Lernen von Regelungsstrategien sind Methoden des bestärkenden Ler- 
nens. Sie lernen in einem interaktiven Lernvorgang aus gezielten Versuchen 
und den darauf erfolgenden Reaktionen des Prozesses und adaptieren dabei 
die spezifischen Bedingungen eines Fertigungsprozesses. Entwickelte Metho- 
den sind modellfrei und generisch für zwei unterschiedliche Anwendungsfel- 


der anwendbar, welche die Schwerpunkte dieser Arbeit bilden: 


e Optimierung von Regelungsstrategien partiell beobachtbarer Fertigungs- 
prozesse mit endlichem Zeithorizont unter variierenden Prozessbedin- 


gungen. Die partielle Beobachtbarkeit bedeutet, dass der Prozesszustand 
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einer Messung nicht direkt zugänglich ist, sondern lediglich vom Zu- 
stand abhängige Messgrößen erfasst werden können. Gleichzeitig wir- 
ken nicht erfasste Bedingungen variierend auf den Prozess ein, der in 


Folge als stochastischer Prozess dargestellt wird. 


e Struktur-geleitete Optimierung von Material-Struktur-verändernden Pro- 
zessen mit dem Ziel vorgegebene Material-Strukturen zu erreichen. Da- 
bei wird vorausgesetzt, dass das Ziel des Prozesses die Erzeugung be- 
stimmter Material-Strukturen ist, die gewünschte Material-Eigenschaf- 
ten aufweisen. Hierzu ist die Messbarkeit der Struktur während der Pro- 
zessausführung erforderlich, was durch Simulation der Prozesse und — 


in Ausnahmefällen — auch in realen Prozessen möglich ist. 


Ein Großteil der Fertigungsprozesse fällt in eine dieser beiden Klassen, so dass 
die entwickelten Methoden auf eine Vielzahl unterschiedlicher Prozesse an- 
gewendet werden können. Die Problemklassen werden zur Untersuchung der 
entwickelten Methoden anhand von Umformprozessen in der Metallverarbei- 


tung instanziiert. 


2 Stand der Wissenschaft 


In diesem Kapitel wird der Stand der Wissenschaft mit Bezug auf die vorlie- 
gende Arbeit aufbereitet. Dabei werden verwandte und grundlegende Arbeiten 


und Methoden vorgestellt und formal eingeführt. 


2.1 Wissenschaftlicher Rahmen der Arbeit 


In direkter Beziehung zu der vorliegenden Arbeit stehen Arbeiten die im Vor- 
feld von Melanie Senn [1-3] und Susanne Witt (geborene Fischer) [4, 5] im 
Rahmen des Graduiertenkollegs 1483 durchgeführt wurden. Diese Arbeiten 
beschäftigen sich, wie die vorliegende Arbeit auch, im Schwerpunkt mit der 
Anwendung maschineller Lernverfahren auf Fertigungsprozesse. Wie bei der 
vorliegenden Arbeit werden entwickelte Methoden dabei insbesondere anhand 
simulierter Tiefziehprozesse untersucht. Ein Großteil der Arbeiten wird an- 
hand eines 2D Modells zur Simulation eines Tiefziehprozesses mittels der Fini- 
te-Elemente-Methode (siehe Abschnitt 4.3.1) erprobt. Das Simulationsmodell 
zeichnet sich durch eine hohe Rechenperformanz aus, und ermöglicht so um- 
fangreiche Untersuchungen datengetriebener Methoden. Im Folgenden wird 
dieses Modell kurz als 2D Tiefziehmodell bezeichnet. 

Im Mittelpunkt der Arbeiten von Melanie Senn steht der Einsatz von maschi- 
nellem Lernen zur Prozessbeobachtung und optimalen Regelung von Ferti- 
gungsprozessen. In [1] werden Regressionsmethoden und Methoden zur Di- 


mensionsreduktion zur Prozessbeobachtung und zur Vorhersage bestimmter 


2 Stand der Wissenschaft 


Eigenschaften der Prozessergebnisse untersucht. Trainiert werden die Me- 
thoden anhand eines 100 Stichproben umfassenden Datensatzes einer Mul- 
tiskalensimulation. Die Simulation integriert ein Mikrostrukturmodell mittels 
Homogenisierung in das 3D Simulationsmodell eines Tiefziehprozesses [6]. 
Die Stichproben werden mithilfe des Modells unter Variation des Reibungs- 
koeffizienten und der Niederhaltekraft erstellt. Die Vorhersagegenauigkeit des 
Prozessbeobachters wird durch den Vergleich mit Realexperimentergebnissen 
evaluiert. Hierbei wird die Ausprägung der Zipfelbildung mittels des Prozess- 
beobachters vorhergesagt und Vorhersageergebnisse mit Ergebnissen der Mul- 
tiskalensimulation und Ergebnissen von Realexperimenten verglichen. In [2] 
werden verschiedene Ansätze des approximate dynamic Programming vorge- 
stellt und anhand der optimalen Regelung eines simulierten Tiefziehprozesses 
untersucht. Die Optimierung findet offline auf Basis einer Stichprobenmen- 
ge von Prozessdaten statt. Ahnlich wie in der vorliegenden Arbeit werden im 
Rahmen des approximate dynamic Programming künstliche neuronale Netze 
zur Approximation der Erwartungswerte der zukünftigen Belohnung gelernt. 
Darüber hinaus finden in [2] künstliche neuronale Netze auch Verwendung 
zur Approximation eines deterministischen Zustandsiibergangsmodells. Ver- 
gleichend evaluiert werden die Methoden anhand des 2D Tiefzieh-Modells mit 
verrauschten Zustandsübergängen. Eine in [2] eingeführte Methode, Backward 
Approximate Dynamic Programming wird in 2.2.3 ausführlich besprochen. 

Durch Susanne Witt wurden die Arbeiten zur Prozessbeobachtung weiter ver- 
tieft. In [4] wird eine Methode zur nicht-linearen Dimensionsreduktion vorge- 
stellt, bei der die Merkmale im dimensionsreduzierten Raum geordnet nach 
Wichtigkeit vorliegen. Die Methode verwendet eine Menge sequentiell ge- 
lernter Autoencoder (siehe [7], Kapitel 14) mit jeweils einem Neuron in der 
mittleren, sogenannten Flaschenhals-Schicht. Die Methode wird anhand einer 
Stichprobenmenge des 2D Tiefzieh-Modells evaluiert. Die Stichprobenmen- 
ge wird unter Variation der Niederhaltekraft erzeugt. Der Prozesszustand ist in 
[4] durch die Von-Mises-Vergleichsspannungen an den Integrationspunkten des 


Simulationsmodells repräsentiert. Darauf aufbauend wurde ein Prozessmodell 
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mittels symbolischer Regression gelernt [5]. Das Ziel bei der Verwendung von 
symbolischer Regression ist hier die Interpretierbarkeit des gelernten Prozess- 
modells. Auch hier dient die Gesamtheit der Von-Mises-Vergleichsspannungen 
an den Integrationspunkten des 2D Tiefzieh-Modells als Prozesszustand. 

Ein zweiter, in Kapitel 5 vorgestellter, Teil der Arbeit wurde im Rahmen des 
DFG Projektes „Maßgeschneiderte Werkstoffeigenschaften durch Mikrostruk- 
turoptimierung“ durchgeführt. Das hierbei verwendete Taylor-Materialmodell 
und die darauf beruhende Simulation des uniaxialen Deformationsprozesses 
wurde von Lukas Morand am Fraunhofer Institut für Werkstoffmechanik IWM 
entwickelt [8] und basiert auf einem Kristallplastizitätsmodell, das von Jan Pa- 


genkopf, ebenfalls am Fraunhofer IWM, entwickelt wurde [9]. 
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Zu Beginn dieses Abschnitts werden in 2.2.1 Markov-Entscheidungsprozesse 
als formale Grundlage der Problemdefinition bei der Entscheidungsoptimie- 
rung eingeführt. Anschließend werden in 2.2.2 bis 2.2.7 allgemeine bewer- 
tungsbasierte Lösungsmethoden der dynamischen Programmierung und des 
bestärkenden Lernens vorgestellt, welche von besonderer Bedeutung für die 
vorliegende Arbeit sind. In 2.2.8 wird der Fokus geweitet, indem die zuvor im 
Detail vorgestellten Algorithmen eingeordnet und alternative Lösungsansätze 


skizziert werden. 
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2.2.1 Markov-Entscheidungsprozesse 


Markov-Entscheidungsprozesse! (Auch Markov-Entscheidungsprobleme, engl. 
Markov Decision Processes, MDP) bilden die formale Grundlage zur Beschrei- 
bung zeit-diskreter Entscheidungsprozesse unter stochastischen Bedingungen. 

Grundlegend bestehen Markov-Entscheidungsprozesse aus einer Menge von 
Aktionen a € A, einer Menge von Zuständen s € S und einer Zustandsüber- 
gangsfunktion P : S x A x S — (0, 1], wobei Dis, gy, 5:41) = Pr(s;+1|8;,a;) die 
Wahrscheinlichkeit angibt, mit der durch die Aktion a; € A zum Zeitschritt 
t eNi ein Übergang von Zustand s; € Sin den Nachfolgezustand zu € S aus- 
gelöst wird. Zustände s € S beinhalten jegliche für den weiteren Prozessver- 
lauf relevante Information über die Prozessvergangenheit. Markov-Entschei- 
dungsprozesse sind damit gedächtnislos und die Prozessdynamik ist durch P 
vollständig charakterisiert. Diese Eigenschaft wird als Markov-Eigenschaft be- 
zeichnet. Zustände s eines Markov-Entscheidungsprozesses werden in Anleh- 
nung daran auch als Markov-Zustände bezeichnet. Der Aktionsraum A wird 
in dieser Arbeit als statische Menge betrachtet, grundsätzlich erlaubt die For- 
mulierung des Markov-Entscheidungsprozesses auch die Definition der Menge 
verfügbarer Aktionen A, in Abhängigkeit des aktuellen Zustands s. 

Eine Belohnungsfunktion R : S x A x S + R bewertet den Zustandsübergang 
von Zustand s, in Zustand s,,; via a; durch eine skalare Größe Ris. ar, St+1). 

In der Praxis, wie auch an vielen Stellen dieser Arbeit, ist die Belohnung häufig 
indifferent bezüglich des Ausgangszustands s; und der Aktion a;, so dass die 
Belohnungsfunktion lediglich über die erreichten Zustände s;, 1 definiert ist: 

R: S —> R. Im Folgenden wird R als beschränkte Abbildung angenommen. 


! Benannt nach Andrei Andrejewitsch Markow, im englischen Andrey Andreyevich Markov. In 
dieser Arbeit verwendete Schreibweise ist Markov, in Übereinstimmung mit dem überwiegenden 
Teil der Fachliteratur. 
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Das Ziel bei der Lösung eines Markov-Entscheidungsprozesses ist die Maxi- 
mierung der erwarteten Summe der zukünftigen diskontierten Belohnungssi- 
gnale durch das Treffen von Aktions-Entscheidungen a. Für einen exempla- 
rischen, endlichen, Pfad s,,4,,$:+1,@+1,...,57 aus Zuständen und Aktionen, 
beträgt die Summe 7 der zukünftigen diskontierten Belohnungssignale, im Fol- 


genden kurz Ertrag genannt, zum Zeitpunkt t 


T-1 
P= A YRlskarsk+i)- (2.1) 
k=t 


Ein Diskontierungsfaktor (engl. discount Factor) y € [0,1] bestimmt dabei die 
Gewichtung der Belohnungen in Abhängigkeit vom Zeitpunkt des Auftretens. 
Für den Fall T — © und y = 1 konvergiert 7 im allgemeinen Fall nicht. Bei so- 
genannten Entscheidungsprozessen mit unendlichem Zeithorizont ist deshalb 
eine alternative Problemformulierung von Bedeutung, bei der anstelle des er- 
warteten Ertrags die mittlere zukünftige Belohnung maximiert wird (vgl. R- 
Learning [10]). Diese Formulierung ermöglicht die Erwartungswertbildung bei 
fortlaufenden Belohnungen für y = 1. Die in dieser Arbeit betrachteten Pro- 
blemstellungen haben die Gemeinsamkeit, dass es sich um sogenannte Ent- 
scheidungsprozesse mit endlichem Zeithorizont handelt, bei denen nach einer 
endlichen Anzahl von Zeitschritten garantiert ein Endzustand erreicht ist. Ent- 
scheidungsprozesse mit unendlichem Zeithorizont spielen in späteren Teilen 
der Arbeit keine weitere Rolle und werden aus diesem Grund im Folgenden 
nicht weiter behandelt. 

Markov-Entscheidungsprozesse mit endlichem Zeithorizont sind formal defi- 
niert durch das Tupel (S,A,P,R,Y,Po,S), wobei Py : S — [0,1] die Verteilung 
der Anfangszustände und $ C $ die Menge der Endzustände angibt. Entschei- 
dungsprozesse mit festem Zeithorizont sind ein Spezialfall der Entscheidungs- 
prozesse mit endlichem Zeithorizont, mit § = Sr, wobei S, C S die Menge der 
in Zeitschritt t erreichbaren Zustände definiert. Entscheidungsprozesse mit fes- 
tem Zeithorizont sind durch das Tupel ($,A,P,R,y,Po,T) formal definiert. An 
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einigen Stellen werden zur übersichtlicheren Darstellung Zustände s; ohne Ver- 
wendung des Zeit-Indexes durch s und Nachfolgezustände s,+1 durch d sym- 
bolisiert. Auf gleiche Art repräsentiert a’ die Nachfolgeaktion ot. Bei der 
Anwendung ist ein Zustand s üblicherweise durch einen Vektor s € R” in ei- 
nem reellen Zustandsraum 5 C R” beschrieben, während Aktionen a € A im 
Rahmen dieser Arbeit Elemente einer endlichen Aktionsmenge A darstellen. 
Anstelle der Zustände sind in Teilen der Arbeit Vektoren beobachtbarer Grö- 
Ben o € R” gegeben, die den Prozesszustand nicht im Sinne der Markov-Eigen- 
schaft charakterisieren. Dieser Fall der sogenannten partiellen Beobachtbarkeit 
wird in 2.3.1 behandelt. 

Verfahren zur Lösung von Markov-Entscheidungsprozessen entstammen zwei 
ursprünglich weitgehend getrennten wissenschaftlichen Strömungen: der opti- 
malen Regelung (dynamische Programmierung) und dem maschinellen Lernen 
(bestärkendes Lernen). Diese Trennung findet sich an einigen Stellen der ver- 
wandten Arbeiten in der Notation wieder. Während im Bereich des bestärken- 
den Lernens, wie auch in dieser Arbeit, Zustände durch das Symbol s (für engl. 
’state’) Zustandsräume durch das Symbol S (für engl. "state space’), Aktionen 
durch a (für engl. ’action’) und Aktionsräume durch das Symbol A (für engl. 
"action space’) repräsentiert werden, orientiert sich die Notation der dynami- 
schen Programmierung an der gängigen Notation der Regelungstechnik. Zu- 
stände sind hier durch x (Symbol für den Zustandsvektor in der Regelungstech- 
nik ), sowie Aktionen durch u (Symbol für die Stellgröße in der Regelungstech- 
nik ) repräsentiert. Das Ziel ist im bestärkenden Lernen als die Maximierung 
der zukünftig erwarteten Belohnung R formuliert. Die übliche Formulierung 
des Ziels in Arbeiten der dynamischen Programmierung ist die Minimierung 


zukünftig erwarteter Kosten J. 
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2.2.2 Dynamische Programmierung 


Zur Maximierung des erwarteten Ertrags 7 wird eine Entscheidungs-Strategie 
(engl. Policy) x: A x S — [0,1] optimiert. Die Strategie weißt einem Zustand 
des Entscheidungsprozesses s € A für jede wählbare Aktion a € A die Wahr- 
scheinlichkeit zu mit der diese gewählt wird io, el = Pr(a|s). Für eine Stra- 
tegie 7 gibt die Zustands-Bewertungsfunktion Vz : S —> R (engl. State-Value 
Function) für Zustände s € S den Erwartungswert des zukünftigen diskontier- 


ten Ertrags an. Vz ist formal definiert als 


T-1 
WEN = Lob | A8 TEEN á (2.2) 
k=t 


Die Verteilung der Aktionen a; folgt dabei der Strategie (ax, s). Die Vertei- 
lung der Folgezustände s;+1,...,sr folgt der Zustandsübergangsfunktion. Der 
Erwartungswert eines Endzustands 5 € S$ ist definiert als Vz(5) = 0. Die Zu- 
stands-Bewertungsfunktion Vz(s+) kann in rekursiver Form ausformuliert wer- 


den: 


Vx(s}) = L 7(51,4:) L Pia, ae, S141) Big ar; S141) + Wa (st )] 
DIER IEN (2.3) 


= Exp [R(St, ar, 5141) F Walst+1)] ` 


Diese, Bellman Gleichung genannte, rekursive Formulierung stellt die Basis fiir 
die Formulierung der Bellman-Optimalitätsgleichungen und damit der Lösung 
von Markov-Entscheidungsprozessen durch dynamische Programmierung und 
Methoden des bestärkenden Lernens dar. Eine Lösung des Markov-Entschei- 
dungsprozesses ist eine optimale Strategie 2". Diese ist gefunden, wenn für 
alles € S gilt 

m* = argmaxV;(s). (2.4) 

H 


Die zugehörige optimale Zustands-Bewertungsfunktion V*(s) entspricht 
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V*(s) = max Volz), (2.5) 


Die Bellman-Optimalitätsgleichung für V* folgt hieraus in Kombination mit 
der rekursiven Formulierung der Zustands-Bewertungsfunktion in (2.3) und ist 


gegeben durch 


V*(s,) = max L Pis, ae, [R(s1; at, S141) + WV" (St+1)]- (2.6) 
arEA Der 

Im Folgenden wird zwischen stochastischen Strategien und deterministischen 
Strategien 7: S — A unterschieden. Bei der Formulierung des Optimierungs- 
ziels als Maximierung des erwarteten Ertrags und unter den oben genannten 
weiteren Annahmen? ist bekannt, dass wenn eine optimale Strategie des Ent- 
scheidungsprozesses existiert, auch mindestens eine deterministische Strategie 
T* : S — A existiert (siehe [11], Kapitel 6). Wenn V* und P bekannt ist, lässt 


sich 7” auf einfache Art bestimmen: 


7 (s,) = argmax 8 Pis, dr, 5141) [R(S1,41, s141) + YV* (st+1)] (2.7) 


acA DE 


Für s € S lässt sich aus (2.6) ein Gleichungssystem aus |S| Gleichungen mit 
|S| unbekannten aufstellen. Dieses ist theoretisch durch Lésungsverfahren für 
nichtlineare Gleichungssysteme lösbar, wenn der Entscheidungsprozess, ins- 
besondere die Zustandsübergangsfunktion P, bekannt ist. In der Praxis ist dies 
aufgrund von Beschränkungen der Rechenzeit und des verfügbaren Speichers 
unmöglich und Methoden der dynamischen Programmierung werden zur Ap- 


proximation der Bellman-Optimalitätsgleichung verwendet. 


? (a) Die Belohnungsfunktion R ist eine beschränkte Funktion. (b) Die Menge der ausführbaren 
Aktionen A ist abzählbar endlich. 
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POLICYITERATION(P,R, y, S) 
1 Initialize 7 and V 
2 repeat 
3 for s; € S: 
4 Vislz- Eses fie, (Sr) 5141) [RG (Sr), S141) + Mell 
5 until V converges (to Vz) 
6 
7 
8 


for s; € S: 
So argmax „ea Eses P(S ar, S1) [R(Sr, at, S141) + WV (sı+ı)] 
if 7 = T: 
9 TSR 
10 else: 
11 Tin 
12 go to Line 2 


Listing 1. Policy Iteration [12] 


2.2.3 Grundlegende Verfahren der dynamischen 
Programmierung 


Grundlegende Algorithmen der dynamischen Programmierung zur Lösung von 
Markov-Entscheidungsprozessen sind der Policy Iteration Algorithmus [12] 
(Listing 1) und der Value Iteration Algorithmus [13] (Listing 2). Beide ver- 
feinern iterativ eine Approximation V ~ V* der optimalen Zustands-Bewer- 
tungsfunktion V*. V konvergiert bei beiden Ansätzen für die hier betrachteten 
Entscheidungsprozesse mit endlichem Zeithorizont garantiert zu V*. Eine op- 
timale Strategie 7* kann (2.7) folgend aus V* extrahiert werden. Die initiale 
Bewertungsfunktion V, und im Fall von Policy Iteration auch die initiale Stra- 
tegie 7, kann dabei beliebig gewählt werden, wobei beachtet werden muss, 
dass per Definition V (5) = 0 für alle Endzustände 5 € $ gilt. 

Policy Iteration (Listing 1) besteht aus der iterativen Ausführung von zwei auf- 
einanderfolgenden Schritten: (a) Der Berechnung der Bewertungsfunktion Vz 


der aktuellen Strategie 7 (in blauer Farbe dargestellt, Zeilen 2 bis 5) und (b) 
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VALUEITERATION(P,R, Y, S) 


1 Initialize V 

2 repeat 

3 for s; € S: 

A V (s1) + Maxa cÊ Es, es Digg, pret [R(81541,81+1) + WV (sı+ı)] 
5 until V converges (to V*) 

6 Extract 7 following (2.7) 


Listing 2. Value Iteration [13] 


der Extraktion einer verbesserten Strategie 7 (in roter Farbe dargestellt, Zeilen 
6 und 7) aus Vz. Dem Policy Improvement Theorem [14] folgend gilt für das 
Ergebnis der Schritte (a) und (b) in jedem Fall Vz .,) > Vrs) für alle Zustände 
s in S. Die optimale Strategie 7* ist garantiert erreicht, wenn in Schritt (b) kei- 
ne verbesserte Strategie gefunden werden kann. Anderenfalls wird 7 durch 7’ 
ersetzt und eine weitere Iteration wird initiiert (Zeilen 10 bis 12). 

Der Value Iteration Ansatz (Listing 2) kombiniert die Schritte (a) und (b) in ei- 
nem kombinierten Update-Schritt (Zeile 4). Hierbei wird die Bewertungsfunk- 
tion Vz nicht mehr vollständig berechnet bevor 7 extrahiert wird. Stattdessen 
wird 7 an der Stelle 7(s,) implizit aktualisiert, indem für s; die Aktion a, € A 
gesucht wird für die der Erwartungswert der Belohnung maximal ist. Der Er- 
wartungswert V(s,) wird an der Stelle s, für die derart implizit aktualisierte 
Strategie aktualisiert. Dieses lokale Update wird für alle Zustände s, (Zeile 3) 
wiederholt (Zeilen 2, 5) durchgeführt. Der beschriebene Zusammenhang wird 


klar, wenn man das Value Iteration Update aus Zeile 4 zerlegt: 


f +- arg max L P(s1,at, S141) [R(s1, 41,5141) + YV (sı+1)] (2.8) 


oe oe 


entspricht dann der lokalen Anwendung von Schritt (b) und 


Vhs) E Pis, T (st), s141) [Rls T (st), s41) rel (2.9) 


E 
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der lokalen Anwendung von Schritt (a) des Policy Iteration Algorithmus. Die 
Grundidee des kombinierten lokalen Updates findet sich in gleicher oder ähnli- 
cher Form bei allen im Folgenden beschriebenen und in der Arbeit entwickel- 
ten Algorithmen wieder. 

Zur Konvergenz der bisher vorgestellten Algorithmen muss das jeweilige Up- 
date der Zustands-Bewertungsfunktion V pro Zustand s € S in der Regel mehr- 
fach angewandt werden, da das jeweilige Update wiederum auf approximier- 
ten Bewertungen V (s;.ı) der Zustände des nächsten Zeitschritts beruht. Im 
Fall von Entscheidungsprozessen mit endlichem Zeithorizont können Zustän- 
de s € S in eine endliche Menge zeitlich geordneter Zustandsmengen So, ..., ST 
gebracht werden, wobei S; C S die Menge der in Zeitschritt t erreichbaren Zu- 
stände ist. Dies ermöglicht, für Zeitschritt-abhängige Zustands-Bewertungs- 
funktionen V, das Update ausgehend von den Endzuständen Sr rückwärts in 
den Zeitschritten anzuwenden und so sicherzustellen, dass zum Zeitpunkt des 
Updates von V;(s;) bereits Mt) = Vý. (8:41) gilt. Backward Dynamic 
Programming (vgl. [15] S. 65) ist eine Spezialform des Value Iteration Algo- 
rithmus und folgt diesem Ansatz. Die Anzahl der zur Konvergenz benötigten 
Updates wird hierdurch auf $}; Lal beschränkt. Wie in Listing 3 dargestellt, 
genügt hierbei ein einmaliger Durchlauf der Zeitschritt-abhängigen Zustands- 
räume Sv, ...,So in umgekehrter zeitlicher Reihenfolge. 

Die besprochenen Algorithmen lösen Markov-Entscheidungsprozesse in poly- 
nomieller Zeit [16] (in Abhängigkeit der Kardinalitäten von A und S). Übli- 
cherweise repräsentieren Zustände einen Punkt in einem Zustandsraum. Die 
Anzahl der zur Repräsentation des Raumes benötigten Zustände |S| steigt ex- 
ponentiell mit der Dimension des Zustandsraums (beziehungsweise der Anzahl 
der repräsentierten Zustandsvariablen). Dieser Curse of Dimensionality [14] 
führt dazu, dass die hier beschriebenen klassischen Verfahren in vielen Re- 
alanwendungen aufgrund begrenzter Rechen- und Speicher-Ressourcen nicht 
anwendbar sind. Darüber hinaus ist die Zustandsbeschreibung mittels kontinu- 
ierlicher Zustandsvariablen nicht mit einer Begrenzung der Zustandsmenge A 


vereinbar. Ein Ansatz zum Umgang mit diesen Problemen ist die Verwendung 
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BACKWARDDP(P,R, y, |So, --- Sr], S) 


1 fort €T,...,0: 

2 for s; € S;: 

3 if s; € S: 

4 V* (s) <0 

5 else 

6 Vi" (st) — maxa,ca Ds, „es P($1,01,51+1) [R(s1,@,5741)+ 


Wii (s:+1)] 
7 Extract 2* following (2.7) 


Listing 3. Backward Dynamic Programming (nach [15]) 


von Methoden des tiberwachten Maschinellen Lernens zur Approximation der 


Bewertungsfunktionen. 


2.2.4 Approximative Verfahren der dynamischen 
Programmierung 


Die im vorangegangenen Unterabschnitt beschriebenen klassischen Verfahren 
haben die Gemeinsamkeit, dass die Zustands-Bewertungsfunktion V explizit 
in tabellarischer Form (S x A) repräsentiert ist. Dies führt, wie besprochen, zu 
Problemen, wenn die Kardinalität der Zustände |S| hoch ist, oder gar von konti- 
nuierlichen Zustandsbeschreibungen s € R” auszugehen ist. Eine Möglichkeit 
mit diesen Problemen umzugehen ist die Verwendung von Regressionsverfah- 
ren zur Approximation der Zustands-Bewertungsfunktion. Im vorangegange- 
nen Unterabschnitt angeführte Garantien bezüglich der Konvergenz der klas- 
sischen Algorithmen sind bei der Verwendung von Funktionsapproximations- 


methoden nicht länger gültig. 


16 


2.2 Optimierung von Entscheidungsprozessen 


BACKWARDADP(P;R,Y, [So, ...,Sr])) 


1 Vr(sr, 8r) —=(, Vsr € S7,VOr 
2 forteT-1,...,0: 


3 D,- 0 

4 for s; € S;: 

5 Xy <— St 

6 yv emaxgca | EHNEN 


YViri (Sr+1, 41 ))| dsı+1 


7 De D: U {(xv,yv)} 
8 Learn Parameters 0, <- based on D; 
9 Extract 7 ~ 7* following (2.7) with V, (s+, 0,) ~ V*(s;) 


Listing 4. Backward Approximate Dynamic Programming (nach [2]) 


Im Folgenden wird stellvertretend die approximative Form des zuvor bespro- 
chenen Backward Dynamic Programming eingeführt, die wie später bespro- 
chen in einigen Punkten Gemeinsamkeiten mit dem in dieser Arbeit entwickel- 
ten Backward Fixed Horizon Neural Q-Learning Algorithmus aufweist (siehe 
Abschnitt 4.2). 

Backward Approximate Dynamic Programming (Listing 4) wurde von Mela- 
nie Senn in [2] vorgestellt und ist ein Verfahren zur approximativen Lösung 
von Entscheidungsprozessen mit festem Zeithorizont und potenziell kontinu- 
ierlichem Zustandsraum. Ein Modell der Zustandsübergangsfunktion P und 
der Belohnungsfunktion R wird dabei als gegeben angenommen. Außerdem 
liegt eine repräsentative Menge von Zustandsbeschreibungen s; € S; pro Zeit- 
schritt £ vor. An die Stelle der Zeitschritt-abhängigen tabellarischen Zustands- 
Bewertungsfunktionen V, tritt die Approximation His. 0,) ~ V;(s,) mit eigen- 
ständigen Modellparametern 6, pro Zeitschritt t € 0,..., T — 1. Für Zustands- 
Bewertungen der Endzustände gilt auch hier Vr (sr, 07) = 0 für alle sr und Or 
(Zeile 1) . Ausgehend von t = T wird rückwärts in den Zeitschritten (Zeile 2) 
ein Datensatz D; zum Training der Modellparameter 0, erstellt (Zeilen 3 bis 
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7) und anschließend die Funktionsapproximation V (s+, 6,) trainiert (Zeile 8). 
Eingangsdaten der Funktionsapproximation xy € R” bilden die Zustandsbe- 
schreibungen s;, Zielgrößen yy € R sind die in Zeile 6 berechneten Zustands- 
Bewertungen. Da die approximative Methode im Fall von kontinuierlichen Zu- 
standsräumen anwendbar sein soll, ist die Bildung einer Summe über die Fol- 
gezustände während des Updates (vgl. Backward Dynamic Programming Lis- 
ting 3, Zeile 6) nicht länger möglich. Stattdessen wird unter Anwendung der 
Simpsonschen Formel ein Integral über die Erwartungswerte der Folgezustän- 
de approximiert. Neben der Zustands-Bewertungsfunktion werden künstliche 
Neuronale Netze in [2] auch zur Punktschätzung der Zustandsübergangsfunk- 


tion P auf Basis von Prozessdaten genutzt. 


2.2.5 Bestärkendes Lernen 


Bestärkendes Lernen (engl. reinforcement learning) ist ein Teilbereich des ma- 
schinellen Lernens und hat, wie die oben beschriebene dynamische Program- 
mierung, zum Ziel Markov-Entscheidungsprozesse zu lösen. Im Gegensatz zu 
den beschriebenen Methoden der dynamischen Programmierung, bei denen die 
Lösung des Entscheidungsprozesses auf einer bekannten oder approximierten 
Zustandsübergangsfunktion P, der bekannten Belohnungsfunktion R und der 
Kenntnis des Zustandsraums S beruht, lernen Algorithmen des bestärkenden 
Lernens die Lösung online durch Interaktion mit dem Prozess. 

Der Algorithmus des bestärkenden Lernens trifft während des Lernens in aller 
Regel autonome Entscheidungen zur Interaktion mit dem Prozess und führt 
diese durch ansprechen einer geeigneten Schnittstelle aus. Ein System, be- 
stehend aus dem Algorithmus des bestärkenden Lernens und in einigen Fällen 
virtuellen oder physischen Komponenten zur Wahrnehmung und zur Interak- 
tion mit der Umgebung wird daher gängiger Weise als Agent [17] bezeich- 


net. Die sogenannte Umgebung besteht aus einem potenziell stochastischen 
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(St, T4 d) 


See a,c A 


Umgebung 
(ër, Ti: d) 


Abbildung 2.1: Interaktions-Zyklus des bestärkenden Lernens (nach Sutton, Barto [16]) 


Prozess, einem Belohnungssignal-Geber und einem Beobachter. Prozess, Be- 
lohnungssignal-Geber und Beobachter bilden den Markov-Entscheidungspro- 
zess ab. Die Interaktion zwischen Agent und Umgebung ist in Abbildung 2.1 
skizziert. Der Prozess befindet sich zum Zeitpunkt ¢ in Zustand s; und nimmt 
einer unbekannten Zustandsübergangsfunktion P folgend, durch äußere Anre- 
gung a; € A einen Nachfolgezustand et € S an. Der Belohnungssignal-Geber 
emittiert zum Zeitpunkt + 1 einer unbekannten Belohnungsfunktion R folgend 
ein numerisches Belohnungssignal r für den Zustandsübergang von s; zu s;+1 
durch die Aktion a. Der Beobachter gibt gleichzeitig den Markov-Zustand s; 
oder die Markov-Zustandsbeschreibung s; +1 zurück. 

Bei Entscheidungsprozessen mit endlichem Zeithorizont ist der Lernvorgang 
in Episoden genannte Abschnitte eingeteilt. Als Episode e wird eine einzelne 
Prozessausführung, also die Interaktion ausgehend von dem Startzustand so 
bis zum Auftreten eines Endzustands 5 € $ bezeichnet. Da $ nicht bekannt 
ist, wird im Fall von episodischem Lernen zusätzlich durch die Umgebung der 
boolesche Wert d zur Signalisierung des Episodenendes ausgegeben. 

Im Folgenden wird eine Auswahl von tabellarischen und approximativen Algo- 
rithmen des bestärkenden Lernens vorgestellt, die ähnlich den oben vorgestell- 
ten Algorithmen der dynamischen Programmierung durch die Annäherung von 


Bewertungsfunktionen lernen (engl. Value-based Methods) und in Beziehung 
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zu den im Rahmen der Arbeit entwickelten Algorithmen stehen. Aufgrund der 
Ausrichtung der Arbeit werden Varianten der jeweiligen Algorithmen zur Lö- 
sung von Entscheidungsprozessen mit endlichem Zeithorizont vorgestellt. Die 
Generalisierung zur Anwendbarkeit auf Entscheidungsprozesse mit unendli- 
chem Zeithorizont ist jeweils durch geringfügige, hier nicht weiter behandelte, 


Anpassungen möglich (siehe [16]). 


2.2.6 Tabellarisches bestärkendes Lernen 


Bei den oben vorgestellten Algorithmen der dynamischen Programmierung 
werden Markov-Entscheidungsprozesse durch das iterative verbessern von Zu- 
stands-Bewertungsfunktionen V(s) (In Listing 1 bis 4) oder approximierten 
Zustands-Bewertungsfunktionen V(s,@) gelöst. Die jeweiligen Updates von 
V(s) bzw. V(s,0) haben gemeinsam, dass sie auf den Bewertungen der po- 
tenziellen Nachfolgezustände V(s’) bzw. V(s’,@) für alle potenziellen Aktio- 
nen a € A beruhen. Voraussetzung hierfür ist Kenntnis über die Zustandsüber- 
gangsfunktion P(s’|s,a). Im Fall der beschriebenen modellfreien Optimierung 
mittels bestärkenden Lernens ist P nicht bekannt und die Updates der Bewer- 
tungsfunktion (Zeilen 4 und 7 Listing 1, Zeile 4 Listing 2, Zeile 6 Listing 3, 
Zeile 6 Listing 4) können nicht durchgeführt werden. Die sogenannte Q-Funk- 
tion Q : Sx A > R (auch Aktions-Bewertungsfunktion) bewertet Zustands- 
Aktions-Paare und beriicksichtigt so auch die Dynamik des Systems bei dem 
Übergang des Zustands s zu s’. Die Q-Funktion Oz für die Strategie 2 mo- 
delliert den Erwartungswert der zukünftigen diskontierten Belohnung für die 


Strategie 7% und ist in ihrer rekursiven Form definiert als 


Or(s1,0:) = Epa [R(s¢,41,5141) + YOx(sı+1,0:41))]» (2.10) 
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wobei a; 1 der Strategie 7, und die Verteilung des Folgezustands s; 1 der un- 
bekannten Zustandsübergangsfunktion P(s,,a;,5;41) folgt. Bei Entscheidungs- 
prozessen mit endlichem Zeithorizont gilt analog zur Zustands-Bewertungs- 
funktion Q(5,a) = 0 für Endzustände 5 € $ und alle Aktionen a € A. 

Ähnlich wie im Fall der Zustands-Bewertungsfunktion (vgl. (2.6)) kann die 
Bellman-Optimalitätsgleichung der Q-Funktion in rekursiver Form aufgestellt 


werden: 


O*(s;,a;) = Ep [R(51,41,5¢41) FN max, O° (S¢41,41+1)]. (2.11) 
1 


t+ 


Ist Q* gegeben, ist die Extraktion der optimalen Strategie z* auf einfache Art 


möglich: 


7 (s,) = arg max Q*(s;,a;). (2.12) 
EA 


Anders als im Fall der Zustands-Bewertungsfunktion (vgl. (2.7)) ist hierzu kein 
Wissen über die Zustandsübergangsfunktion P erforderlich. Die optimale Zu- 


stands-Bewertungsfunktion V* ist für Q* gegeben durch die Beziehung 


V*(s) = max Q*(s,qa). (2.13) 


acA 

Q-Learning [18] gilt als der Algorithmus der das moderne bestärkende Lernen 
begriindet hat, indem zentrale Ideen aus Bereichen der optimalen Regelung 
(dynamische Programmierung) und der kiinstlichen Intelligenz (Lernen durch 
Versuch und Irrtum) zusammengebracht wurden (vgl. [16] S. 21). Q-Learning 
bildet bis heute die Grundlage für neue bewertungsbasierte Ansätze des bestär- 
kenden Lernens, so auch für die in 2.2.4 und 2.2.7 vorgestellten approximativen 
Methoden und die im Rahmen dieser Arbeit entwickelten Methoden. 

Der O-Learning Algorithmus ist in Listing 5 für den Fall des episodischen 
Lernens dargestellt. Initial wird die Q-Funktion unter Berücksichtigung von 
O(5,a) = 0 für alle Se S und a € A beliebig initialisiert (Zeile 1). Pro Episode 
(Zeile 2) wird der Initialzustand beobachtet (Zeile 2). Während der Episode 
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Q-LEARNING(G,T,n.) 
1 Initialize Q 
2 fore=l1ton: 
3 observe initial state s 
repeat 
execute a following f and observe s’,r,d 


4 
5 
6 O(s,a) + O(s,a) +a [r+ ymaxy'c4 O(s',a’) — O(s,a)] 
7 ses 
8 until d = 1 


Listing 5. Q-Learning (episodisch) [18] 


wird pro Zeitschritt Aktion a durch den Agenten einer Strategie 7 folgend be- 
stimmt und auf der Umgebung ausgeführt. Daraufhin werden der Nachfolge- 
zustand s’, das Belohnungssignal r = R(s,a,s') und eine Binärvariable d beob- 
achtet. Die Binärvariable d nimmt den Wert 1 an, wenn s’ ein Endzustand und 
die aktuelle Episode damit beendet ist. Basierend auf den beobachteten Werten 
(s,a,r,s’) findet in Zeile 6 das Update der Q-Funktion statt. Die Lernrate o 
bestimmt dabei den Einfluss des Updates auf den lokalen Wert O(s,a). 

Die Q-Funktion konvergiert bei ausreichend hohem ne garantiert gegen Q*, 
wenn durch die während des Lernens ausgeführte stochastische Strategie 7: 
A x S — [0,1] (im Folgenden als Lernstrategie bezeichnet) sichergestellt ist, 
dass für jedes a € A und s € S \ § gilt: #(a,s) > 0 [19]. 

Diese Bedingung wäre durch eine Lernstrategie erfüllt, durch die Aktionen 
gleich verteilt ausgeführt werden (a,s) = 1 + |A|. Effizienter sind allerdings 
Lernstrategien, die die aktuelle Bewertung Q(s,a) zur Priorisierung der Ak- 
tionen nutzen. Der Extremfall, der aber nicht mit der Bedingung vereinbar ist, 
wäre die Nutzung der sogenannten greedy-Strategie X = org man, Q(s,a) als 
Lernstrategie X. Die Lernstrategie #(a,s) = 1 + |A| ist eine maximal explo- 
rierende Strategie, während 7 = arg max, Q(s,a) eine maximal verwertende 
Strategie darstellt. Das Verhältnis zwischen Exploration und Verwertung (Ex- 


ploitation) stellt einen zentralen Zielkonflikt des bestärkenden Lernens dar. Ein 
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gängiger Umgang mit diesem Zielkonflikt ist die Verwendung einer €-greedy 


Lernstrategie 


ade 1 ` € , ifa=argmax, ca Q(s,ai) (2.14) 
lat > else. 

Diese stellt eine Mischform der beiden Extrem-Strategien dar, wobei die Ex- 
plorationsrate € das Verhältnis von Exploration und Exploitation bestimmt. In 
der Regel wird e in Abhängigkeit von dem aktuellen Lernfortschritt definiert. 
Zu Beginn des Lernens ist eine hohe Explorationsrate vorteilhaft um den noch 
unbekannten Entscheidungsprozess zu explorieren. Im Verlauf des Lernens er- 
höht sich das Wissen über den Prozess und die Q-Funktion nähert sich Q* an. 
Eine abnehmende Explorationsrate sorgt nun für zielgerichteteres Lernen. Er- 
reicht werden kann dies beim behandelten episodischen Lernen von Entschei- 
dungsprozessen mit endlichem Zeithorizont beispielsweise durch eine expo- 
nentielle Annäherung € = En x exp(—Age) + £p einer initialen Explorationsrate 
ën an die finale Explorationsrate €p, über die Episoden e hinweg. 
Der O-Learning Algorithmus ist ein sogenannter off-Policy Algorithmus: Die 
optimale Strategie 7* wird gelernt, indem die Approximation OO" itera- 
tiv verfeinert wird. Dazu werden Daten verwendet die aus der Interaktion des 
Agenten mit der Umgebung mittels einer Lernstrategie 7 stammen. Die Lern- 
strategie 7 und die Strategie deren Q-Funktion gelernt wird stimmen dabei 
nicht überein. Dies manifestiert sich bei dem Q-Funktionsupdate (Listing 5, 
Zeile 6), bei dem davon ausgegangen wird, dass a’ greedy und nicht 7 folgend, 
gewählt wird. Im Gegensatz dazu ist SARSA [20]? ein on-Policy Algorithmus: 
die Q-Funktion wird hier für die Lernstrategie 7 gelernt. SARSA entspricht 
weitgehend dem Q-Learning Algorithmus. Anstelle des Q-Learning Updates 


3 in [20] unter dem Namen Modified Connectionist Q-Learning vorgestellt, der Name SARSA geht 
auf [21] zurück. 
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(Listing 5, Zeile 6) ist das SARSA Q-Funktionsupdate (im Weiteren als SAR- 
SA-Update bezeichnet) allerdings definiert als 


Q(s,a) + O(s,a) +a[r+ yO(s',a’) - O(s,a)], (2.15) 


wobei a’ der tatsächlich ausgeführten Aktion im Nachfolgezeitschritt ent- 
spricht. 

Durch das beschriebene SARSA Update nähert Q die Bewertungsfunktion der 
Lernstrategie 7 an. Um also die Konvergenz von Q gegen die optimale Bewer- 
tungsfunktion Q* im Fall des SARSA Updates sicherzustellen, muss gewähr- 
leistet sein, dass 7 im Limit gegen 2* konvergiert. Wie im Fall des O-Learning 
Updates gilt die Konvergenzbedingung #(a,s) > 0 für alle a € A und s € S\S. 
Im Fall der oben beschriebenen €-greedy Lernstrategie sind beide Kriterien 
theoretisch erfüllt, wenn die exponentielle Annäherung der Explorationsrate € 


dem exponentiellen Zerfall (e: = 0) entspricht. 


2.2.7 Approximatives bestärkendes Lernen und 
Tiefes bestärkendes Lernen 


Wie bei der zuvor beschriebenen dynamischen Programmierung werden auch 
beim bestärkenden Lernen Methoden des überwachten maschinellen Lernens 
genutzt um durch Approximation der Bewertungsfunktionen die Algorith- 
men für Realanwendungen mit hoher Kardinalität |S| oder kontinuierlicher 
Zustandsbeschreibung anwendbar zu machen. Ziel der vorgestellten appro- 


ximativen Methoden ist die Approximation der Q-Funktion durch künstliche 
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Neuronale Netze O(s,a, 0) ~ Q(s,a), im Folgenden auch als Q-Nerz bezeich- 
net. Zustände s sind durch den Vektor s € R” repräsentiert, während Aktionen 
a durch eine skalare Größe a € R beschrieben werden’. 

Im Folgenden werden zwei, auf Q-Learning und künstlichen Neuronalen Net- 
zen, basierende Methoden des approximativen bestärkenden Lernens vorge- 
stellt: Neural Fitted Q Iteration (NFQ) [22] und Deep Q-Networks [23]. NFQ 
stellt ein Schema zum Update der approximierten Q-Funktion beim bestärken- 
den Lernen dar, das auch durch den in Abschnitt 4.2 entwickelten Algorithmus 
BFHNQ verfolgt wird. NFQ ist in seiner grundlegenden Form ein sogenann- 
ter Batch-Algorithmus°, der basierend auf Erfahrungs-Tupeln (s,a, r,s") durch 
Anwendung des off-Policy Q-Learning Updates Q-Netze trainiert. Batch-Al- 
gorithmen wie NFQ können zum online-Lernen durch regelmäßiges neu-Trai- 
nieren der Q-Netze wie unten beschrieben verwendet werden. Bei Deep Q- 
Networks [23] werden anstelle des regelmäßigen kostenintensiven neu-Trai- 
nierens der Q-Netze diese begleitend zum bestärkenden Lernen verfeinernd 
trainiert. Dadurch wird der Trainingsaufwand deutlich reduziert, sodass auch 
tiefe Neuronale Netze mit hoher Modellkapazität zum Lernen genutzt werden 
können. NFQ wird als Basisalgorithmus der in Kapitel 5 vorgestellten Metho- 
den genutzt. 

Das Neural Fitted O Iteration Training ist in Listing 6 dargestellt. Auf iterative 
Art wird hierbei das Q-Netz wiederholt neu-trainiert (Zeilen 2 bis 12). Die In- 
itialisierung des künstlichen Neuronalen Netzes kann hierbei beliebig gewählt 
werden, wobei Q(S,a, 0) = 0 für alle Endzustände 5 unabhängig von der Ak- 


tion a und den Parametern 9 während des gesamten Vorgangs sichergestellt 


4 In der Praxis wird, entgegen der Darstellung, üblicherweise eine Abbildung Q(s, 0) von Zustän- 
den s auf einen Vektor R'4! der Aktionsweisen Q-Funktionswerte gelernt. Dies ist in der effizien- 
teren Abfrage der Werte begründet und hat keine Auswirkungen auf die beschriebenen Sachver- 
halte. Zugunsten einer konsistenten Darstellung mit dem tabellarischen Fall wird in dieser Arbeit, 
wie auch in dem überwiegenden Teil der Fachliteratur, von einer Abbildung Q(s,a, 0) ~ Q(s,a) 
ausgegangen. 

verwandt, aber nicht zu verwechseln mit batch Optimierungsverfahren beim Training von künst- 
lichen Neuronalen Netzen (siehe Anhang A.0.2) 


5 
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NFQ(D, Y, map) 

1 initialize Q 

2 for i= 1 to nnf: 

3 D-0 

for (s,a,r,s’) in D: 
xo + (s,a) 
Yo r+ Wach Q(s',a', 0) 
D+-DU{(xo,yo)} 

0 < train Q based on dataset D 


GO JA Ch Ln E, 


Listing 6. Neural Fitted Q Iteration (NFQ, episodisch) [22] 


sein muss (Zeile 1). Basierend auf den Erfahrungs-Tupeln (s,a,r,s’) wird ein 
Trainingsdatensatz D erzeugt (Zeilen 3 bis 7). Die Zielgröße yo für O(s,a, 0) 
wird dabei analog zu dem O-Learning Update für O(s,a) (Listing 5, Zeile 6) 
für eine neutrale Lernrate & = 1, basierend auf der aktuellen Approximation 
Q(s',a',0) berechnet (Zeile 6). Die Lernrate œ des Q-Learning-Updates wird 
aufgrund der Begrenzung der Schrittweite der Gradienten-Updates beim Trai- 
ning des Q-Netzes obsolet. Aufgrund des neu-Trainierens der künstlichen Neu- 
ronalen Netze kann NFQ mit Batch Optimierungsverfahren kombiniert werden 
(siehe Anhang A.0.2). 

NFO kann aufgrund des off-Policy Updates (vgl. 2.2.6) auf einen Datensatz 
D mit beliebig erzeugten Erfahrungs-Tupeln angewendet werden, sofern die 
Erfahrungen aus der Interaktion mit dem Entscheidungsprozess stammen. Das 
online-Lernen durch Interaktion mit dem Prozess wie es in dieser Arbeit be- 
handelt wird entspricht der inkrementellen NFQ Variante (vgl. [22]). Wie beim 
tabellarischen Q-Learning wird hierbei zur Erzeugung der Erfahrungs-Tupel 
die Lernstrategie 7(a,s) basierend auf der aktuellen Approximation Q(s,a, 0) 
ausgeführt. Die Gesamtheit der erzeugten Erfahrungs-Tupel wird in einem an- 
wachsenden Replay Memory D gespeichert. NFQ wird für das Replay Memory 
D zum Training eines aktualisierten Q-Netzes während des bestärkenden Ler- 


nens wiederholt ausgeführt. 
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DQN (n.,ng,noY) 
1 Initialize Q 
2 D0 
3 fore=1ton,: 


4 observe initial state s 
5 tO 
6 repeat 
7 execute a following 7 and observe (s’,r,d) 
8 D«Du({(s,a,r,8’,d)} 
9 if ¢ divides no: 
10 B < sample experience mini-batch from D 
11 0 + train QO(s,a,0) by using B following (2.16) 
12 if r divides ng: 
13 0 +90 
14 s&s 
15 tt+1 
16 until d = 1 


Listing 7. Deep Q Networks (DQN, episodisch) [23] 


Das iterative neu-Trainieren der Approximation Q stellt einen Trainingsauf- 
wand dar, der mit komplexen Modellen, wie tiefen Neuronalen Netzen, nicht 
in vertretbarer Rechenzeit durchführbar ist. Der Deep Q Networks Algorith- 
mus basiert im Gegensatz dazu auf der fortlaufenden Verfeinerung des Q-Net- 
zes durch mini-Batch Updates (siehe Anhang A.0.2) während des bestärkenden 
Lernens. 

Der Deep Q Networks Algorithmus ist in Listing 7 dargestellt. Nach der In- 
itialisierung des Q-Netzes (Zeile 1) und des Replay Meomory (Zeile 2) wird 
DQN für ne Episoden ausgeführt. Bei der Initialisierung von Q muss auch hier 
sichergestellt sein, dass Q(5,a, 0) = 0 für alle Endzustände 5 unabhängig von 
der Aktion a und den Parametern 0 gilt. Wie beim tabellarischen Q-Learning 
werden Aktionen einer Lernstrategie 7 folgend ausgeführt (Zeile 7). Daraufhin 
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wird der Nachfolgezustand s’, das Belohnungssignal r und die boolesche Va- 
riable d zur Identifizierung des Episodenendes zurückgegeben. Wie bei NFQ 
werden Erfahrungs-Tupel (s,a, r,s’,d) in einem Replay Memory D gespeichert 
(Zeile 8). Ein mini-Batch Update des Q-Netzes findet alle ng Zeitschritte statt 
(Zeilen 9 bis 11). Zur Bildung des mini-Batches werden Erfahrungs-Tupel aus 
D ausgewählt (Zeile 10). Zeitlich aufeinanderfolgende Erfahrungs-Tupel sind, 
auf Ebene der Zustandsvektoren s und durch die von Q abgeleitete Strategie, 
stark korreliert. Das Verwenden der jeweils neuesten Erfahrungen zum Trai- 
ning des Q-Netzes führen zu dem sogenannten catastrophic Forgetting Effekt: 
Erwartungswerte die bereits in zuvor explorierten Bereichen des Zustands- 
raums gelernt wurden werden durch die neuen Erfahrungen „überschrieben“. 
Aus diesem Grund werden in einem Experience Replay genannten Prozess Er- 
fahrungen zur Erzeugung der Trainingsdaten zufällig gleich-verteilt aus D ge- 
zogen. Für das Erfahrungs-Tupel (s,a,r,s’,d) ist die Zielgröße für Q(s,a, 0) 
definiert als 


yo +} r+ ymax Q(s',a',07). (2.16) 
d'EA 


Dies unterscheidet sich von der NFQ Zielgröße (Listing 7, Zeile 6) durch die 
Entkopplung der Parameter zur Zielgrößenberechnung 0 von den aktuellen 
Q-Netz Parametern ©. Da die Q-Funktion Q(s,a,0) sich, durch das voran- 
schreitende bestärkende Lernen stetig verändert würde eine Kopplung der Para- 
meter dazu führen, dass auch die Zielgrößen einer stetigen Veränderung unter- 
legen wären. Dies führt potenziell zu instabilem Lernen, beispielsweise durch 
oszillierende Strategien [23]. Die Entkopplung der Parameter 0", die nach je- 
weils ng Zeitschritten durch @ ersetzt werden (Zeilen 12 und 13), wirkt dem 
durch die Stabilisierung der Zielgrößen entgegen. Zum Training der Q-Net- 
ze werden bei DQN mini-Batch Optimierungsverfahren wie Adam verwendet 
(siehe Anhang A.0.2). 
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Fiir den DQN Basisalgorithmus existieren einige Erweiterungen vorgestellt. 
Drei gängige Erweiterungen, die in dieser Arbeit eine Rolle spielen sind na- 
mentlich Prioritized Experience Replay [24], Double O-Learning [25] und Du- 
eling Q-Learning [26]. Diese werden im Folgenden in verkürzter Form einge- 
führt. 

Prioritized Experience Replay (PER) geht von der Annahme aus, dass Er- 
fahrungs-Tupel mit hohem Zeit-Differenz-Fehler |yg — Q| mehr Information 
tragen als Erfahrungs-Tupel mit niedrigem Zeit-Differenz-Fehler. Anstelle des 
gleich-verteilten Ziehens der Erfahrungs-Tupel (Zeile 10) werden durch PER 
Erfahrungen mit hohem Zeit-Differenz-Fehler priorisiert. Um sicherzustellen, 
dass die Priorisierung nicht zu einem Verlust an Diversität der Trainingsdaten 
führt, ist sie mit einer Stochastik versehen, wobei der Parameter Oper € RI 
den Einfluss der Priorisierung bestimmt. Zur weiteren Korrektur der hervor- 
gerufenen Verzerrung der Erwartungswerte wird eine gewichtete Importance 
Sampling Methode mit einem weiteren Hyperparmeter Dn € [0, 1] genutzt (sie- 
he [24] für Details). 

Ein grundlegendes Problem des O-Learning Updates ist eine systematische 
positive Verzerrung, im Folgenden maximierungs-Bias genannt, die dadurch 
entsteht, dass das Update auf einer Maximum-Suche über einer Menge von 
Schätzwerten (den Q-Werten im nächsten Zeitschritt) beruht. Bei der Umfor- 
mung der DQN Zielgrößenberechnung (2.16) in 


yo +r+yQ(s',argmax Q(s',a',0~), 07) (2.17) 
oeh 


wird deutlich, dass sowohl die Bestimmung der Nachfolgeaktion a’, als auch 
die Berechnung des Erwartungswerts für (s’,a’) auf den Q-Netz Parametern 
0” beruht. Double Q-Learning reduziert den skizzierten maximierungs-Bias, 
indem Parameter 0, zur Bestimmung von a’ von den Parametern $,, zur Schät- 
zung der Q-Werte getrennt gelernt werden. Die Zielgrößen zum Update der 


Parameter 9, werden dann ermittelt durch 
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Ydoubleg + r + YQ(s', arg max Q(s',a’, A), Oa). (2.18) 


a’ EA 
Die Rolle von 9, und @ wechselt während des Lernens, und wird für jedes Up- 
date zufällig festgelegt. Zur Erweiterung des DQN Algorithmus durch double 
O-Learning werden die, wie oben beschrieben, entkoppelten Parameter 0 und 
0” anstelle der getrennten Parameter 0, und 0, genutzt [25]. Die Zielgrößen- 
berechnung aus (2.16) hat dann die Form 


YdoubleDQn + r+ YQ(s’,argmax Q(s',a',0), 07). (2.19) 
alcA 


Dueling Q-Learning nutzt eine modifizierte Version des Q-Netzes zum effi- 
zienteren Lernen. Die Modifikation basiert auf der Dekomposition Q(s,a) = 
V(s) +A(s,a) der Aktions-Bewertungsfunktion Q in die bereits aus 2.2.2 be- 
kannte Zustands-Bewertungsfunktion V und die sogenannte Advantage-Funk- 
tion A. Dies ermöglicht das Lernen der Bewertung V(s) eines Zustands s un- 
abhängig von den Aktions-Bewertungen O(s,a) und soll so insbesondere bei 


Problemen mit großem Aktionsraum A die Konvergenz begünstigen [26]. 


2.2.8 Einordnung der Lösungsverfahren 


In den vorangegangenen Unterabschnitten wurde eine Auswahl von Methoden 
detailliert vorgestellt die auf Bewertungsfunktionen beruhen und direkt oder 
indirekt mit den in dieser Arbeit entwickelten Methoden verwandt sind. In die- 
sem Unterabschnitt werden die Methoden zusammenfassend verglichen und 
weitere Methodenklassen des bestärkenden Lernens umrissen. 

In Tabelle 2.1 sind die detailliert vorgestellten Methoden vergleichend aufge- 
listet. Während die Methoden des bestärkenden Lernens online lernen, nutzen 


Methoden der dynamischen Programmierung a-priori Modellwissen in Form 
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Tabelle 2.1: Einordnung der vorgestellten bewertungsbasierten Algorithmen 


Algorithmus Online Modellfrei Approx. On-Policy 


Policy Iteration (Listing 1) 


Value Iteration (Listing 2) - - E S 


Backward DP (Listing 3) - - = z 


Backward ADP (Listing 4) S - + - 
Q-Learning (Listing 5) + + - - 
SARSA + + - + 

NFQ (Listing 6) = + - 
DQN (Listing 7) + + + - 


der Zustandsübergangsfunktion und Belohnungsfunktion um Entscheidungs- 
prozesse offline zu lösen. Die vorgestellten Methoden des bestärkenden Ler- 
nens kommen ohne jegliches a-priori Modellwissen aus. Sonderfälle bezüg- 
lich dieser Kategorien sind Backward ADP und NFQ. Backward ADP nutzt die 
Zustandsübergangsfunktion P zum Update der Zustands-Bewertungsfunktio- 
nen. Die Zustandsübergangsfunktion ist bei Backward ADP durch künstliche 
Neuronale Netze approximiert, die entweder offline auf Basis von vor-erzeug- 
ten Daten oder verfeinernd anhand von online-Daten trainiert werden können. 
Auch wenn Backward ADP grundlegend für die offline Anwendung ausgelegt 
ist, ist eine online Anwendung denkbar. NFQ ist ein Schema zum Training 
von künstlichen Neuronalen Netzen zur Approximation der Q-Funktion das 
sowohl offline mit gegebenem Datensatz als auch online in der beschriebenen 


inkrementellen Variante verwendet werden kann. 
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Grundlegende Algorithmen der dynamischen Programmierung und des bestär- 
kenden Lernens, wie Backward DP oder O-Learning basieren auf einer Reprä- 
sentation der beteiligten Bewertungsfunktionen in expliziter Form als Tabel- 
le. Approximative bewertungsbasierte Algorithmen wie Backward ADP oder 
Deep O-Networks kombinieren die jeweiligen grundlegenden Algorithmen mit 
Mechanismen und Modellen zur approximativen Repräsentation der jeweili- 
gen Bewertungsfunktionen und ermöglichen so die effiziente Anwendung bei 
hoch-dimensionalen oder kontinuierlichen Zustandsräumen. 

Ein weiteres Merkmal zur Kategorisierung der vorgestellten bewertungsba- 
sierten Ansätze ist die Art des Updates. Während das on-Policy SARSA Up- 
date Bewertungsfunktionen für die aktuell ausgeführte Strategie aktualisiert, 
ermöglichen off-Policy Updates das Lernen von Bewertungsfunktionen für die 
optimale Strategie aus Daten die einer abweichenden Strategie folgend erzeugt 
wurden. 

Die bisher behandelten und die 
in dieser Arbeit entwickelten Al- 
gorithmen des bestärkenden Ler- 
nens sind modellfreie bewer- 
tungsbasierte Algorithmen. Sie 
basieren auf dem Lernen von 
Bewertungsfunktionen und die 


zum Lernen verwendeten Daten 


stammen aus der Interaktion mit 
dem Prozess. Ein Modell des 


Prozesses wird dabei nicht ex- 


Modell 


plizit repräsentiert. Eine gängi- 


ge Taxonomie der Algorithmen 
Abbildung 2.2: Taxonomie der Methoden des bestär- 


des bestärkenden Lernens findet 
kenden Lernens (Nach Silver®) 


sich in Abbildung 2.2 (Nach Da- 


vid Silver‘) in Form eines Venn- 
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Diagramms. Jede Basismenge des Diagramms steht dabei für einen Lösungs- 
bestandteil, der durch den jeweiligen Algorithmus gelernt wird, oder im Fall 
des Modells in einigen Fallen auch a-priori gegeben ist. 

Strategiebasierte Algorithmen optimieren direkt die Parameter 0 einer übli- 
cherweise stochastischen und bezüglich 0 differenzierbaren Strategie 7 (a, s,0) 
Pr(als,@). Aktuelle Beispiele für strategiebasierte Verfahren sind Trust Regi- 
on Policy Optimization [27] und Proximal Policy Optimization [28]. Durch 
das direkte Lernen der Strategie ist keine Maximum-Suche über die Aktionen 
A notwendig. Entgegen den vorgestellten Methoden des bewertungsbasierten 
Lernens, können strategiebasierte Methoden somit ohne weiteres für Probleme 
mit kontinuierlichen Aktionsbeschreibungen a € R” angewandt werden. Des 
Weiteren zeichnet sich strategiebasiertes Lernen üblicherweise durch stabiles 
Konvergenzverhalten aus, während beim bewertungsbasierten Lernen kleine 
Änderungen der Bewertungsfunktionen zu großen Änderungen der zugehöri- 
gen greedy-Strategie führen können. Ein Nachteil strategiebasierter Algorith- 
men ist jedoch, dass entgegen den bewertungsbasierten Methoden in jedem 
Lernschritt die Parameter O der parametrisierten Strategie 7r(a,s,@) nur durch 
aktuelle Daten optimiert werden können, Updates also notwendigerweise on- 
Policy erfolgen. Dies macht das Lernen aus Prozessdaten, die unter alten For- 
men der Strategie erzeugt wurden (Experience Replay) unmöglich, was wie- 
derum in vielen Fällen zu einer geringeren Dateneffizienz der Algorithmen 
führt [29]. 

Actor Critic Methoden Lernen sowohl ein Modell der Strategie als auch ein 
Modell der Bewertungsfunktion und stellen somit eine Mischform dar. Ziel 
ist dabei, die Vorteile beider Formen des bestärkenden Lernens zu vereinen. 
Konkret vereinen einige Algorithmen dieser Klasse die Fähigkeit Strategien 
mit kontinuierlichen Aktionen zu optimieren mit der Möglichkeit aus off-Policy 


Daten zu lernen. Aktuelle Beispiele sind Actor Critic with Experience Replay 


6 Kursfolien „Advanced Topics / Reinforcement Learning“, David Silver, University College Lon- 
don, 2015 
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[30] und Soft Actor Critic [31]. 

Modellbasierte Algorithmen des bestärkenden Lernens nutzen während des 
Lernens ein Zustandsübergangsmodell der Umgebung. Das Umgebungsmo- 
dell wird dabei entweder parallel zur Bewertungsfunktion beziehungsweise der 
Strategie online gelernt, oder bereits im Vorfeld gelernt und basierend auf on- 
line Daten verfeinert. Eine Ausnahme stellt beispielsweise der AlphaGo Ansatz 
[32] dar, bei dem ein a-priori Umgebungsmodell zur Planung der Züge mit 
modellfreiem Lernen zur Einschätzung der langfristigen Effekte verschiedener 
Züge kombiniert wird. Umgebungsmodelle können beim bestärkenden Lernen 
beispielsweise mit dem Ziel genutzt werden Realdaten zu ergänzen und so die 
Dateneffizienz zu erhöhen [33, 34], oder um Stabilitätskriterien auf explorative 
Lernstrategien bei sicherheitskritischen Anwendungen anwenden zu können 
[35]. Die Genauigkeit des Umgebungsmodells hat dabei einen wesentlichen 
Einfluss auf die Qualität der Lernergebnisse. Wird das Modell zum Lernen 
über mehrere Zeitschritte ausgerollt, können selbst geringe Ungenauigkeiten 
zu hohen akkumulierten Fehlern führen [36]. 

Neben diesen allgemeinen Algorithmen des bestärkenden Lernens existiert ei- 
ne Vielzahl von Methoden zur Behandlung spezifischer Charakteristika der 
Entscheidungsprozesse. Solche erweiterten Ansätze, die für die vorliegende 


Arbeit von besonderer Bedeutung sind, werden in Abschnitt 2.3 behandelt. 
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2.3 Erweiterte Ansätze des bestärkenden 
Lernens 


2.3.1 Partielle Beobachtbarkeit 


Die vorangehend beschriebenen Methoden der dynamischen Programmierung 
und des bestärkenden Lernens gehen von einer vollständigen Beobachtbarkeit 
des Prozesses im Sinne der Problemformulierung als Markov-Entscheidungs- 
prozess (siehe 2.2.1) aus. Die Markov-Eigenschaft impliziert dabei, dass in je- 
dem Zeitschritt eine Zustandsbeschreibung gegeben sein muss, auf deren Ba- 
sis die optimale Aktion bezüglich des Entscheidungsprozesses bestimmt wer- 
den kann. In vielen Anwendungsfällen, wie der online-Optimierung von Ferti- 
gungsprozessen, ist der Zustand s jedoch nicht direkt zugänglich. Stattdessen 
sind beobachtbare Größen o € A gegeben, die nicht vollständig auf den Zu- 
stand im Sinne der Markov-Eigenschaft schließen lassen. Formal sind solche 
Probleme als partiell beobachtbare Markov-Entscheidungsprozesse (POMDP) 
(S,A,P,R,Y,O,A) darstellbar, wobei die Menge A die beobachtbaren Größen 
umfasst und O(0,,51+1,4:) = Pr(o,|sı+1,a,) die Beobachtungswahrscheinlich- 
keit von ge, bedingt durch s;+] und a; angibt. Im Folgenden werden verschie- 
dene Ansätze zum Umgang mit partiell Beobachtbaren Szenarien skizziert. 

Ein modellbasierter Ansatz zur Lösung von POMDPs ist das Erlernen von Be- 
wertungsfunktionen für sogenannte Belief States. Belief States bilden die Wahr- 
scheinlichkeitsverteilung Pr(s,|oo,ao,...,0r,a,;_ı) der aktuellen Prozesszustän- 
de s; in Abhängigkeit von den bisher ausgeführten Aktionen und beobachteten 
Größen ab [37]. Die Menge der bisher ausgeführten Aktionen und beobachte- 
ten Größen werden im Folgenden als historische Prozessdaten bezeichnet. Ein 
weiterer modellbasierter Ansatz zum Umgang mit partieller Beobachtbarkeit, 
der beispielsweise in [3] verfolgt wird, ist die Nutzung eines Beobachtermo- 
dells zur Punktschätzung des aktuellen Zustands § ~ s auf Basis der aktuell 


beobachteten Größen oder der historischen Prozessdaten. Dabei wird davon 
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ausgegangen, dass der Entscheidungsprozess auch für die geschätzten Zustän- 
de § die Markov-Bedingung erfüllt. Diese Annahme wird im Folgenden als 
Markov-Annahme bezeichnet. 

Ein modellfreier Ansatz ist die Berücksichtigung der historischen Prozessda- 
ten bei der Approximation der Bewertungsfunktion. Im einfachen Fällen reicht 
es aus, für die Zusammenfassung der letzten n beobachteten Größen die Mar- 
kov-Annahme zu treffen, und die die Konkatenation der letzten n beobachte- 
ten Größen Š = 0; © 0-1 ©- > Oe ut als Zustandsvektor § zu betrachten. 
Dieser Ansatz wird beispielsweise in [23] mit n = 4 zum Lernen von Com- 
puterspiel-Strategien verfolgt, wobei sich o; aus vorverarbeiteten Farbinforma- 
tionen eines Bildschirminhaltes zusammensetzt. Für Anwendungsfälle bei de- 
nen historische Prozessdaten über einen längeren Zeitraum eine Rolle spielen, 
werden häufig Sequenz-Modelle, wie rekurrente künstliche Neuronale Netze, 
als Bewertungsfunktion verwendet um den aktuellen Zustand implizit aus der 
Sequenz der historischen Prozessdaten abzuleiten [38-40]. Bei dem in dieser 
Arbeit entwickelten BFHNQ Algorithmus wird mit dem gleichen Ziel ein An- 
satz verfolgt, bei dem für Zeitschritt-abhängige Q-Funktionen die gesamte Se- 
quenz der historischen Prozessdaten als Zustandsbeschreibung genutzt wird 
(siehe 4.2). 


2.3.2 Multikriterielles bestärkendes Lernen 


Die skalare Belohnungsfunktion setzt sich bei einigen Anwendungen aus meh- 
reren, oft gegenläufigen, Belohnungskriterien zusammen, deren relative Ge- 
wichtung von einer situationsbedingten Konfiguration abhängt. Methoden des 
multikriteriellen bestärkenden Lernens [41] können in zwei Klassen eingeteilt 


werden: (a) Methoden zum Lernen einzelner Regelungsstrategien haben zum 
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Ziel, für eine gegebene Gewichtung der Kriterien eine optimale Regelungsstra- 
tegie zu finden. (b) Methoden zum Lernen vielfältiger Regelungsstrategien ha- 
ben zum Ziel die Pareto-Optima der Regelungsstrategien (siehe 4.5) im Raum 
der Belohnungskriterien zu approximieren. 

In Abschnitt 4.5 wird multikriterielles bestärkendes Lernen genutzt, um zu er- 
möglichen, dass unter einer Konfiguration gelerntes Prozesswissen auf neue 
Konfigurationen übertragen werden kann. Verwandte Arbeiten, die multikri- 
terielles bestärkendes Lernen auf ähnliche Weiße nutzen sind [42-44]. In [42] 
wird der R-Learning Algorithmus (siehe 2.2.1) mit dem Speichern mehrerer se- 
parat gelernter Bewertungsfunktionen kombiniert, um effizient unter sich über 
die Zeit verändernden Konfigurationen zu lernen. In [43] wird ein multikrite- 
rieller Ansatz zum bestärkenden Lernen autonomer Überholmanöver im Auto- 
verkehr vorgestellt. Hierfür werden Q-Funktionen für sieben Kriterien separat 
gelernt und in der Anwendung durch einen Planungsalgorithmus gewichtet ge- 
mittelt. In [44] wird eine Methode zum Transfer von gelerntem Prozesswissen 
in einer multikriteriellen multi-Agenten Umgebung vorgestellt und anhand ei- 


nes smart-Grid Optimierungsproblems untersucht [44]. 


2.3.3 Generalisierung über Zielbeschreibungen 


Bei einigen Anwendungen ist es möglich, neben dem Zustand s auch eine Be- 
schreibung g des Zielzustands g, im Folgenden auch als Ziel bezeichnet, an- 
zugeben. Diese Zielbeschreibungen werden auf verschiedene Arten beim be- 
stärkenden Lernen genutzt. Der in dieser Arbeit entwickelte Ansatz zum bestär- 
kenden Lernen bei mehreren äquivalenten Zielen (siehe 5.2.2) ist eng verwandt 
mit einer Reihe aufeinander aufbauender Arbeiten [45-47], die im Folgenden 
vorgestellt werden. 

In [45] stellen Sutton et al. einen systematischen Ansatz vor, um anstelle von 


Bewertungsfunktionen, die bezüglich des Gesamtziels des Agenten definiert 
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sind, mehrere sogenannte General Value Functions als Bausteine (orig. De- 
amons) einer speziellen, Horde genannten, Architektur zu verwenden. Gene- 
ral Value Functions bilden die Erwartungswerte beziiglich spezifischer, dem 
Lernziel angepasster, pseudo-Belohnungsfunktionen ab. Genutzt werden kann 
dieser Ansatz um Wissen beziiglich des Entscheidungsprozesses durch die Ge- 
staltung semantischer pseudo-Belohnungsfunktionen als Wissensreprasentati- 
on zu modellieren. Diese Wissensrepräsentation kann beispielsweise genutzt 
werden, um Systemverhalten vorauszusagen [45], Zustandsbeschreibungen an- 
zureichern [48], oder um bestärkendes Lernen auf hierarchisch angeordneten 
Zeitebenen durchzuführen (vgl. [16] S. 461-464). 

Der Idee von General Value Functions folgen Schaul et al. [46] mit ihrem An- 
satz, indem sie pro Ziel g eine pseudo-Belohnungsfunktion Q,(s,a) definie- 
ren. Die Universal Function Approximators genannten approximierten Bewer- 
tungsfunktionen Q(s,a,g, 0) nehmen Zielbeschreibungen g als Funktionsargu- 
ment auf und generalisieren so über die pseudo-Belohnungsfunktionen. Hierin 
unterscheidet sich der Ansatz von [45], wo eine Bewertungsfunktion pro pseu- 
do-Belohnungsfunktion gebildet wird. 

Andrychowicz et al. bauen in ihrem Hindsight Experience Replay genannten 
Ansatz [47] wiederum auf General Value Functions auf. Hindsight Experience 
Replay ist eine Methode zur Augmentierung’ des Replay Memory D durch hy- 
pothetische Erfahrungen, die unter der Annahme erzeugt werden, dass während 
des Lernens anstelle des verfolgten Ziels g ein hypothetisches anderes Ziel ê 
verfolgt wurde. 

Eine weitere Reihe von Arbeiten, bei denen die Definition von Zielen eine 
große Rolle spielt ist das hierarchische bestärkende Lernen. Anders als in den 
bisher besprochenen Arbeiten, sowie in der vorliegenden Arbeit, werden in 
diesen hierarchischen Ansätzen durch den Agenten auf einer Planungsebene 
Teilziele identifiziert, die für das Erreichen des Gesamtziels vorteilhaft sind, 


während auf einer Ausführungsebene gelernt wird diese Teilziele zu erreichen. 


7 Erweiterung eines Datensatzes um synthetisch erzeugte Daten 
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Bedeutende Ansätze die diesem Muster folgen werden beispielsweise in [49, 
50] vorgestellt. 

Arbeiten bei denen, wie bei der in dieser Arbeit entwickelten und in 5.2.2 
vorgestellten Methode, generalisierte Belohnungsfunktionen gelernt werden, 
um Entscheidungsprozesse mit mehreren äquivalenten Zielen effizient zu 16- 


sen wurden in der Literaturrecherche nicht ausfindig gemacht. 


2.3.4 Dünn besetzte Belohnungssignale 


Die zentrale Herausforderung beim Lernen der Bewertungsfunktionen aus Er- 
fahrungen ist die korrekte Identifikation von Aktionen, die zu später beobach- 
teten Belohnungssignalen geführt haben. Diese, Credit Assignment Problem 
genannte, Herausforderung wird erheblich erschwert, wenn von dem Nullwert 
abweichende Belohnungssignale nur selten auftreten. Gleichzeitig ist es bei 
einigen Anwendungen schwierig den erreichten Zustand vor dem Ende der 
Episode zu bewerten. Unter anderem deshalb existieren einige Ansätze zum 
Umgang mit dünn besetzten Belohnungssignalen. 

Ein verbreiteter Ansatz ist die Nutzung von Heuristiken zur Bewertung von 
Zwischenzuständen durch sogenanntes Reward Shaping, im Weiteren als Um- 
formung der Belohnungsfunktion bezeichnet. Dies hat in vielen Fällen den 
Nachteil, dass dadurch Erwartungswerte verfälscht werden und für die umge- 
formte Belohnungsfunktion optimale Strategien kein Optimum bezüglich der 
Belohnungsfunktion vor der Umformung darstellen. In [51] wird eine Potenti- 
al Based Reward Shaping genannte Form der Umformung vorgestellt, für die 
garantiert ist, dass optimale Strategien 2" und Strategien nahe 7* invariant be- 
züglich der Umformung sind. Potential Based Reward Shaping wird in in 5.2.1 
formal eingeführt. 

Ein weiterer Ansatz zum Umgang mit dünn besetzten Belohnungssignalen im 
Fall von Problemen mit beschreibbaren Zielen g ist das bereits im vorangegan- 


genen Unterabschnitt vorgestellte Hindsight Experience Replay [47]. Durch 
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die beschriebene Augmentierungs-Technik wird hier erreicht, dass tiber Ziele 
generalisierende approximative Bewertungsfunktionen Q(s,a,g) auch im Fall 


von dünn besetzten Belohnungssignalen effizient gelernt werden können. 


2.4 Entscheidungsoptimierung für 
Fertigungsprozesse 


In diesem Abschnitt werden Arbeiten vorgestellt, die mit unterschiedlichen 
Zielstellungen Methoden zur Entscheidungsoptimierung und optimalen Re- 
gelung im Kontext der Fertigung anwenden. In 2.4.1 werden Methoden der 
modellprädiktiven Regelung und Methoden des bestärkenden Lernens zur op- 
timalen Regelung und Optimierung von Regelstrategien in dem Kontext der 
Fertigungsprozesse behandelt. In 2.4.2 werden verwandte Arbeiten vorgestellt, 
die dem Bereich optimal operational Control zuzuordnen sind. Abschließend 
werden in 2.4.3 und 2.4.4 Arbeiten vorgestellt, die Aufgrund der behandelten 


Anwendungsfälle mit der vorliegenden Arbeit verwandt sind. 


2.4.1 Optimale Regelung 


Traditionell werden im Bereich der optimalen Regelung modellbasierte Ver- 
fahren, insbesondere Verfahren der linearen modellprädiktiven Regelung un- 
tersucht und angewandt. Eine umfassende Zusammenfassung von Ausprägun- 
gen der modellprädiktiven Regelung sowie von Anwendungen in der optima- 
len Prozessregelung findet sich in [52]. Prozessmodelle in der modellprädikti- 
ven Regelung werden üblicherweise durch lineare Methoden zur Systemiden- 
tifikation ermittelt. Ein aktueller Forschungsschwerpunkt ist die Entwicklung 
und Untersuchung von Methoden zur nichtlinearen modellprädiktiven Rege- 


lung [53]. Bei der modellprädiktiven Regelung wird das Prozessmodell online 
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zur Planung der nächsten Regelschritte genutzt. Hierdurch sind die Rechen- 
kosten während der optimalen Regelung direkt abhängig von den Kosten des 
Prozessmodells. Dies führt dazu, dass modellprädiktive Regelung in einigen 
Fällen nicht oder nur in sehr eingeschränkter Form eingesetzt werden kann, da 
die Optimierung nicht in der erforderlichen Zeit durchführbar ist. Ansätze, um 
dem zu begegnen sind offline Vorausberechnungen der optimalen Regelung 
[54] oder die Verwendung von künstlichen Neuronalen Netzen zur Approxi- 
mation des Prozessmodells [55, 56]. 

Modellfreies bestärkendes Lernen wie es in dieser Arbeit untersucht wird und 
modellprädiktive Regelung werden in einer Reihe aktueller Arbeiten verglei- 
chend diskutiert [57, 58]. Eine inhärente Eigenschaft von Methoden des mo- 
dellfreien bestärkenden Lernens ist die Fähigkeit Prozessverhalten zu adaptie- 
ren [59], während existierende Methoden zur adaptiven modellprädiktiven Re- 
gelung sich laut Görges [57] üblicherweise auf die Robustifizierung der Rege- 
lungsstrategie beschränken. Durch die rekursive Erwartungswertformulierung 
ist der Zeithorizont über den die zukünftig erwarteten Belohnungen (bzw. Kos- 
ten) betrachtet werden beim bestärkenden Lernen unbegrenzt, während dieser 
bei der modellprädiktiven Regelung auf den Prädiktionshorizont beschränkt ist. 
Shin et al. [58] betonen den oben besprochenen Vorteil des bestärkenden Ler- 
nens, ohne umfangreiche Berechnungen während der Regelung auszukommen, 
während bei der modellprädiktiven Regelung in jedem Zeitschritt drei Optimie- 
rungsprobleme sequenziell gelöst werden müssen. Vorteile der modellprädik- 
tiven Regelung gegenüber modellfreiem bestärkendem Lernen sehen sowohl 
Görges, als auch Shin et al. vor allem in der Möglichkeit Nebenbedingungen 
in Form von Einschränkungen der erlaubten Systemzustände zu definieren und 
in der Möglichkeit Aussagen bezüglich der Robustheit und der Stabilität der 
resultierenden optimalen Regelung zu treffen [57, 58]. In [60] werden nicht-li- 
neare modellprädiktive Regelung und ein modellfreier Actor Critic Ansatz ver- 


gleichend zur optimalen Regelung eines invertierten Pendels untersucht. Dabei 
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wird durch Variation der Modell-Genauigkeit gezeigt, dass modellfreies be- 
stärkendes Lernen ab einem gewissen Break-even-Punkt der modellprädiktiven 
Regelung überlegen ist. 

Einige Arbeiten haben zum Ziel die Vorteile von modellfreiem bestärkenden 
Lernen und der modellprädiktiven Regelung durch hybride Ansätze zu verei- 
nen. So werden etwa in [61] Ansätze zur Nutzung von modellfreiem bestär- 
kendem Lernen zur Kompensierung von Modell-Ungenauigkeiten bei der mo- 
dellprädiktiven Regelung vorgestellt. 

Bestärkendes Lernen stellt eine Möglichkeit dar stochastische Systeme auf ad- 
aptive Art optimal zu regeln [59]. Aktuelle Arbeiten zu Algorithmen des be- 
stärkenden Lernens und der dynamischen Programmierung für die optimale 
Prozessregelung werden in [62] verglichen und kategorisiert. Dabei werden 
Arbeiten aus drei Kategorien untersucht: (a) Generelle Arbeiten zur optimalen 
Regelung, (b) Arbeiten zur optimalen Regelung bei gegebenen Sollwerten und 
(c) Arbeiten zur optimalen AH Regelung. Ein Großteil der untersuchten Ar- 
beiten behandelt modellbasiertes bestärkendes Lernen zur Optimierung initial 
gegebener Regelungen. Arbeiten zur optimalen Regelung mittels modellfrei- 
em bestärkendem Lernen die vorgestellt werden sind unter anderen [63, 64]. In 
[63] wird ein Q-Learning ähnliches Verfahren vorgestellt um mittels modell- 
freiem bestärkendem Lernen Optimierungsprobleme der linear-quadratischen 
Regelung (LQR) zu lösen. Der vorgestellte Ansatz integriert die Gütefunktion 
der LQR in die Bellman Gleichung (2.3) und leitet davon einen modellfrei- 
en Ansatz ab der auf lineare, deterministische, partiell beobachtbare Systeme 
anwendbar ist. In [64] wird auf ähnliche Weise die Gütefunktion der linear- 
quadratischen Folgeregelung in die Bellman Gleichung integriert. 

Weitere Arbeiten bei denen bestärkendes Lernen zur optimalen Regelung be- 
ziehungsweise zur Optimierung von Regelungsstrategien angewandt wird sind 
[65-67]. In [65] wird ein Actor Critic Ansatz zur optimalen Regelung der 
Laserleistung bei einem Laserschweißprozess mit vorgegebener Schweißtie- 


fe vorgestellt. In [66] wird ein strategiebasierter Ansatz (Deep Deterministic 
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Policy Gradient) auf einen simulierten Polymerisationsprozess mit simulier- 
tem Messrauschen angewandt. In [67] wird der Deep Q-Networks Algorith- 
mus in Kombination mit künstlichen neuronalen Netzen mit Faltungsschichten 
zur Optimierung eines mittels finite Elemente Methode simulierten Freiform- 


Präge-Prozesses verwendet. 


2.4.2 Operational Control 


Ein weiterer Anwendungsbereich des bestärkenden Lernens im Bereich der 
Optimierung von Fertigungsprozessen ist die sogenannte optimal operational 
Control. Diese ist als zwei-Ebenen Regelungssystem definiert. Auf der Gerä- 
teebene (engl. Device Layer) findet optimale Regelung unter Sollwertvorgabe 
statt. Auf dem operational Layer werden anhand vorgegebener operationaler 
Zielgrößen (bspw. bezüglich der Produktqualität und des Materialverbrauchs) 
Sollwertvorgaben für die Regelung auf Geräteebene bestimmt [68]. Aktuelle 
Beispiele für die Verwendung von modellfreiem bestärkendem Lernen im Rah- 
men der optimal operational Control sind [69, 70]. In [69] wird ein P/-Regler 
auf Geräteebene mit einem modellfreien Actor Critic Verfahren auf dem Ope- 
rational Layer kombiniert, um nichtlineare Schwimmaufbereitungsprozesse zu 
regeln. In [70] wird modellfreies bestärkendes Lernen (mittels O-Learning) auf 
beiden Regelungsebenen angewandt, um einen linearisierten Eindickungspro- 
zess zu optimieren. 

Einige Arbeiten fokussieren sich auf die Optimierung auf dem Operational 
Layer durch modellfreies bestärkendes Lernen. Aktuelle Beispiele hierfür sind 
[71] und [72]. In [71] wird die Anwendung von tiefem bestärkendem Lernen 
zur optimal adaptiven Regelung der Prozesslast bei stark schwankenden Ener- 
giepreisen untersucht. In [72] werden Verfahren des bestärkenden Lernens zur 
optimalen Ressourcendisposition in Produktionsumgebungen angewendet und 


untersucht. 
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2.4.3 Tiefziehprozess 


In der vorliegenden Arbeit dient der Tiefziehprozess als Anwendungsbeispiel 
um die vorgestellten Methoden zu instanziieren und evaluieren. Beim Tiefzie- 
hen, in der Form, in der es hier betrachtet wird, wird ein Blechzuschnitt durch 
einen Ziehstempel in das innere einer Ziehmatrize gedriickt, mit dem Ziel den 
Blechzuschnitt in einen Hohlkörper umzuformen. Niederhalter fixieren dabei 
das Blech zwischen Stempel und Matrize. Neben vorgegebenen Parametern, 
wie etwa dem verwendeten Material oder der Schmierung des Prozesses, hat 
die gewählte Niederhaltekraft erheblichen Einfluss auf die Qualität des resul- 
tierenden Werkstücks. Der Einfluss der zeitlichen und räumlichen Variation der 
Niederhaltekraft auf das Prozessergebnis wird unter anderem in [73], [74] und 
[75] experimentell untersucht. 

Verwandte Arbeiten die sich mit der optimalen Regelung des Tiefziehprozesses 
beschäftigen sind [2, 76-79]. Die bereits in Abschnitt 2.1 eingeführte Arbeit 
[2] behandelt verschiedene Ansätze des approximate Dynamic Programming 
zur Optimierung der zeitlichen Variation der Niederhaltekraft basierend auf 
vor-generierten Prozessdaten. Dabei wird unter anderem der in 2.2.4 beschrie- 
bene Backward Approximate Dynamic Programming Algorithmus vorgestellt. 
Endelt et al. [76, 77] stellen über mehrere Arbeiten hinweg verschiedene Me- 
thoden zur Regelung von Tiefziehprozessen vor. Betrachtete Prozessparameter 
sind dabei, neben der Niederhaltekraft, Druckwerte von über die Niederhalte- 
fläche verteilt aufgebrachten hydraulischen Kissen. In [76] wird ein Verfahren 
zur optimalen Regelung des Tiefziehprozesses vorgestellt. Ziel der optimalen 
Regelung ist die Minimierung der Abweichung des Flansch-Einzugs von ei- 
ner Referenztrajektorie pro Zeitschritt. Die Referenztrajektorie wird im Vorfeld 
manuell ermittelt und es wird angenommen, dass der Prozess für diese robust 
ist. Der Flansch-Einzug an verschiedenen Messpunkten wird als beobachtbare 
Größe für die optimale Prozessregelung bestimmt. Die Lösung des Regelungs- 
problems basiert auf einem linearen Zustandsraummodell mit klassischer Zu- 


standsregelung. Optimale Verstärkungsfaktoren der linearen Regelung werden 
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mittels der Methode der kleinsten Quadrate mit nichtlinearer Modellfunkti- 
on basierend auf FEM Simulationen ermittelt. Geregelt wird hier unabhängig 
pro Tiefziehvorgang. Für einen vergleichbaren Anwendungsfall werden durch 
Fischer et al. in [78] weitere Methoden zur optimalen Regelung vorgestellt, 
die auf der Linearisierung des Modells am Arbeitspunkt beruhen. Um Wis- 
sen über korreliertes Prozessverhalten aufeinanderfolgender Tiefziehvorgänge 
(beispielsweise durch Wärmeentwicklung, durch Reibung oder durch Werk- 
zeugverschleiß) bei der optimalen Regelung zu nutzen wird in [77] ein äußerer 
Regelkreislauf mittels iterativ lernender Regelung und Filtermethoden als Er- 
gänzung des Ansatzes aus [76] vorgeschlagen. Beobachtbare Größen sowie der 
innere Regelkreislauf sind dabei weitgehend identisch zu [76]. Auch hier wer- 
den Verstärkungsfaktoren der iterativ lernenden Regelung mittels der Methode 
der kleinsten Quadrate mit nichtlinearer Modellfunktion ermittelt. Evaluiert 
wird der Ansatz anhand von Tiefziehsimulationen mit systematischer Variati- 
on des Reibungskoeffizienten und einiger Materialmodellparameter. Eine Ge- 
meinsamkeit mit der vorliegenden Arbeit ist neben dem Anwendungsfall, dass 
durch Endelt et al. unter anderem FEM Simulationen auf interaktive Art zur 
Evaluation der Ansätze verwendet werden. Neben der Verwendung eines Pro- 
zessmodells sind die Hauptunterschiede zur vorliegenden Arbeit, dass die zu 
optimierende Größe pro Zeitschritt in Form der Abweichung von einer Refe- 
renztrajektorie gegeben ist und Zusammenhänge zwischen der zu minimieren- 
den Größe und den zu optimierenden Prozessparametern explizit modelliert 
sind. 

Guo und Yu wenden in [79] tiefes bestärkendes Lernen zur optimalen Rege- 
lung des Tiefziehprozesses an. Dabei bauen sie auf in [80] veröffentlichten 
Teilen der vorliegenden Arbeit auf, indem sie die Problemformulierung, unter 
anderem in Form der Belohnungsfunktion, aus dieser übernehmen. Durch Ver- 
wendung eines Actor Critic Ansatzes werden kontinuierliche Niederhaltekräf- 
te optimiert. Guo und Yu gehen hierbei von einer direkten Beobachtbarkeit der 
Von-Mises-Vergleichsspannungen aus und nutzen diese als Zustandsbeschrei- 


bung. Da in [79] ein abweichendes, nicht veröffentlichtes Simulationsmodell 
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verwendet wird und der Grad der Beobachtbarkeit des Prozesses stark abweicht 
ist ein direkter Vergleich der Ergebnisse aus [79] mit den Ergebnissen der vor- 


liegenden Arbeit leider nicht möglich. 


2.4.4 Struktur-geleitete Prozesspfadoptimierung 


Ziel der Struktur geleiteten Prozesspfadoptimierung, wie sie in Kapitel 5 vor- 
gestellt wird ist die Optimierung Material-Struktur-verändernder Prozesse. Die 
vorgestellte Arbeit ergänzt dabei aktuelle Arbeiten aus der Materialwissen- 
schaft zur Invertierung von Struktur-Eigenschafts-Abbildungen. Da es sich bei 
Struktur-Eigenschafts-Abbildungen meist um n zu 1 Abbildungen handelt, er- 
mitteln einige Verfahren mehrere äquivalente Strukturen die die gewünschten 
Zieleigenschaften aufweisen. Aktuelle Beispiele hierfür sind [81, 82]. In bei- 
den Fällen werden Suchverfahren mit überwacht gelernten Filtermethoden zur 
Invertierung von Struktur-Eigenschaftsabbildungen kombiniert. Verschiedene 
Arbeiten die sich mit der Optimierung von Prozessparametern oder Prozess- 
pfaden zur Erreichung gegebener Ziel-Mikrostrukturen [83-89] beschäftigen 
werden im Folgenden eingeführt. 

Shaffer et al. [83] stellen ein sogenanntes Texture Evolution Network vor. Die- 
ses kann als gerichteter Graph gesehen werden, wobei Struktur-Repräsenta- 
tionen (kristallografische Texturen) als Knoten repräsentiert sind, die durch 
Prozessschritte repräsentierende gerichtete Kanten verbunden sind. Der Graph 
wird mittels a priori abgetasteten Prozessdaten erstellt und kann durch eine 
Vorwärtsabbildung von Strukturen auf Eigenschaften in den Eigenschaftsraum 
transferiert werden. Für eine gegebene Startstruktur und gegebene Zieleigen- 
schaften besteht die Prozesspfadoptimierung dann aus der Suche eines Pfades 
im transferierten Texture Evolution Network von dem Startknoten zu einem im 
Zieleigenschaftsbereich liegenden Endknoten. 

Li et al. nutzen in [84] und [85] Strukturevolutionsmodelle für kristallogra- 


phische Texturen (nach Bunge [90]) um Pfade unterschiedlich parametrisierter 
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Deformationsprozesse durch Stromlinien im Raum der Spektral-Koeffizienten 
(siehe Anhang A.0.1) zu repräsentieren. Die Gesamtmenge dieser Pfade bildet 
ein Netz. Wie in [83] können diese Netze genutzt werden, um in der Anwen- 
dung durch Pfadsuche einen Prozesspfad von der Startstruktur zur gewünsch- 
ten Zielstruktur zu ermitteln. Betrachtete Deformationsoperationen sind dabei 
die einachsige Dehnung und das Walzen des Materials. Die beiden Arbeiten 
von Li et al. unterscheiden sich im Wesentlichen bezüglich des Kristallsystems 
des betrachteten Materials. 

In [86] werden für unterschiedliche Deformationsprozesse mittels Dimensions- 
reduktion durch Hauptkomponentenanalyse sogenannte Prozessebenen ("pro- 
cess planes") im Raum der Strukturen ermittelt. Für eine gegebene Zielmikro- 
struktur wird anschließend die Prozessebene gesucht, die diese am genauesten 
repräsentieren kann. Der zugehörige Prozess wird dann als der Prozess ange- 
nommen, der die Zielmikrostruktur am besten erreichen kann. In [87] wird 
diese Methode ergänzt, indem Prozessebenen für Sequenzen von bis zu drei 
Prozessen erstellt werden. 

Dagegen nutzen Sundar et al. [88] Variational Autoencoder um Mikrostruk- 
turen nicht-linear in einen niedrig-dimensionalen Raum abzubilden. A priori 
abgetastete Prozesspfade werden zusammen mit auf den Pfaden liegenden Mi- 
krostrukturen in expliziter Form abgespeichert. Für eine gegebene Zielstruktur 
wird in der Anwendung die Datenbank nach der ähnlichsten bekannten Struk- 
tur gesucht und der zugehörige Prozesspfad als Lösung genutzt. Zum Vergleich 
der Strukturen wird eine Distanzfunktion im dimensionsreduzierten Raum ge- 
nutzt. Angewandt wird die vorgestellte Methode auf Daten aus simulierten Pro- 
zessen zur Dehnung, zum Walzen und zur Scherung von Stahltexturen. 

Ein Ansatz der mittels sogenanntem active Learning das Prozessmodell wäh- 
rend der Optimierung abtastet wird durch Tran et al. [89] vorgeschlagen. Eine 
Kombination aus Bayes Optimierung und kinetischen Monte Carlo Simulatio- 
nen werden hier zur Prozessoptimierung mit der Zieldefinition im Struktur- 
raum genutzt. Die Methode wird anhand eines Schweißprozesses und anhand 


der Optimierung der Temperatur beim Kornwachstum evaluiert. 
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Der Großteil der oben aufgelisteten Arbeiten basiert dabei auf Methoden die 
entweder direkt in einer Menge vorberechneter Prozesspfade nach einer Lö- 
sung suchen [83, 86-88] oder eine generalisierende Struktur von vorberech- 
neten Prozesspfaden ableiten und diese als Grundlage für eine Lösungssuche 
verwenden [84, 85]. Die einzige unter den identifizierten Arbeiten, die zur Op- 
timierungszeit den Prozess abtastet ist [89]. Ein Großteil der besprochenen Ar- 
beiten beschäftigt sich mit der Optimierung von Prozessen mit zeitunabhängi- 
gen Parametern [86, 89] (Dies entspricht Prozesspfaden der Länge 1) oder mit 
der Optimierung kurzer Prozesspfade (bzw. Prozesssequenzen) bestehend aus 


maximal sechs Prozessschritten [87, 88]. 
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Ziel der Arbeit ist die Entwicklung und Untersuchung von Algorithmen zur 
online Ermittlung von optimalen Regelungsstrategien fiir Fertigungsprozesse. 
Wie einleitend in Kapitel 1 beschrieben, stellt die Findung und Optimierung 
von Regelungsstrategien eine Form der optimalen Regelung dar. Zur Formu- 
lierung der Forschungsaufgabe werden im Folgenden die in Kapitel 2 vorge- 
stellten allgemeinen Lösungsansätze zur modellbasierten optimalen Regelung 
und des bestärkenden Lernens im Kontext der Fragestellung diskutiert. An- 
schließend werden die in der Arbeit behandelten konkreten Aufgabenklassen 
eingeordnet und die in Kapitel 2.3 eigeführten erweiterten Ansätze des bestär- 
kenden Lernens eingeordnet. Daraus wird der Lösungsbedarf identifiziert, wor- 
aus wiederum die notwendigen Entwicklungs- und Untersuchungsgegenstände 
der Dissertation identifiziert werden. 

Ein in der Praxis weit verbreitetes Verfahren zur optimalen Regelung ist die 
modellprädiktive Regelung. Daneben werden hauptsächlich in der Forschung 
modellbasierte Verfahren des bestärkenden Lernens und der dynamischen Pro- 
grammierung zur optimalen Regelung behandelt. Exemplarische modellbasier- 
te Verfahren und Forschungsansätze der modellprädiktiven Regelung wurden 
in 2.4.1 vorgestellt. Der Unterabschnitt 2.2.8 gibt einen Überblick zu modell- 
basierten Verfahren des bestärkenden Lernens und der dynamischen Program- 
mierung. Die Anwendung modellbasierter Verfahren setzt ein gegebenes Pro- 
zessmodell sowie eine gegebene Belohnungsfunktion voraus. Zweiteres stellt 
im Kontext der Prozessoptimierung für gewöhnlich kein Problem dar, da es 


sich bei der Belohnungsfunktion hier in aller Regel um eine zum Zweck der 
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Optimierung definierte Funktion handelt, die folglich bekannt ist. Die Forde- 
rung nach einem expliziten Modell des Prozesses stellt jedoch eine hohe Hiirde 
dar. Falls überhaupt möglich, ergibt sich ein hoher Aufwand bei der Erstel- 
lung des Modells, das gleichzeitig den Prozess ausreichend genau abbilden 
muss und rechnerisch ausreichend performant sein muss. Im Fall der modell- 
prädiktiven Regelung, und Teilen des modellbasierten bestärkenden Lernens 
und des adaptive dynamic programming wird das Modell online zur Simulati- 
on der Auswirkung verschiedener Aktionen auf Folgezustände innerhalb eines 
definierten Prädiktionshorizonts verwendet. Dadurch sind die online-Kosten 
direkt von der Performanz des Modells abhängig und die Verwendung auf- 
wändiger Modelle führt schnell zu der Situation, dass die jeweiligen Verfahren 
nicht praktikabel anwendbar sind. Die Modellgenauigkeit hat direkten Einfluss 
auf die erreichbare Güte der darauf basierenden modellbasierten Optimierung 
[91]. Dieser Umstand verschärft sich, wenn Verfahren angewandt werden, die 
das Modell nutzen um Vorhersagen über einen weiteren Prädiktionshorizont 
hinweg zu treffen. Selbst ein geringer Modellfehler kann sich dann über die 
Zeitschritte zu enormen Abweichungen des prädizierten Prozessverhaltens von 
dem tatsächlichen Prozess führen [36]. Zur Anwendung modellfreier Verfah- 
ren ist hingegen kein tieferes Modellwissen erforderlich und Optimierungser- 
gebnisse sind hier nicht durch Annahmen bei der Modellbildung beschränkt. 
Auf die Unterschiede zwischen modellfreiem bestärkendem Lernen und mo- 
dellprädiktiver Regelung wird in 2.4.1 umfassender eingegangen. Auf der an- 
deren Seite ist ein grundlegender Nachteil modellfreier Verfahren, dass durch 
das fehlende Modellwissen das Lernproblem erschwert wird, wodurch sie in 
aller Regel deutlich langsamer konvergieren als modellbasierte Verfahren [36]. 
Bei der Anwendung auf physikalische Systeme, wie etwa im Bereich der Ro- 
botik oder bei der Optimierung von Fertigungsprozessen, entstehen durch das 
Lernen modellfreier Methoden höhere initiale Kosten im Einsatz, beispielswei- 
se für Energie, durch Verschleiß oder im Fall von Fertigungsprozessen durch 


Prozessausschuss. 
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Eine Möglichkeit die Dateneffizienz des modellfreien bestärkenden Lernens 
deutlich zu verbessern und die Anwendbarkeit auf kontinuierliche Zustands- 
räume zu ermöglichen, ist die Verwendung approximativer Verfahren (siehe 
2.2.7). Sobald sich die Zielstellung des Entscheidungsprozesses ändert, ist je- 
doch die aktuelle Regelungsstrategie und zugehörige Bewertungsfunktion hin- 
fällig, was für die in Abschnitt 2.2 vorgestellten Algorithmen bedeutet, dass sie 
von Beginn an eine neue Regelstrategie lernen müssen. Ein Ziel dieser Arbeit 
ist daher, approximative Methoden zu erforschen und entwickeln, die in Situa- 
tionen sich ändernder Zielstellungen, oder mehrerer äquivalenter Zielstellun- 
gen, Prozesswissen nutzen, das unter abweichenden Zielstellungen generiert 
wurde, und so neue Regelungsstrategien dateneffizient lernen können. 

Diese Methoden basieren, wie auch die in 2.2.7 vorgestellten Methoden, auf 
dem Persistieren gemachter Erfahrungen in einem replay-Memory. Wie in 
2.2.4 gezeigt, werden die historischen Erfahrungen des replay-Memory durch 
off-Policy Updates zum Lernen verwendet. Wie in 2.2.8 beschrieben, schließt 
dies strategiebasierte Verfahren aus, während bei approximativen bewertungs- 
basierten Verfahren die Nutzung eines replay-Memory häufig zentraler Be- 
standteil ist (siehe 2.2.4). Außerdem existieren einige off-Policy Actor Cri- 
tic Ansätze, die es ermöglichen kontinuierliche Strategien unter Nutzung des 
replay-Memories zu lernen (siehe 2.2.8). Bewertungsbasierte Verfahren sind 
häufig einfacher zu untersuchen als die komplexeren Actor Critic Ansätze, da 
anstelle der beiden gelernten Bestandteile (Bewertungsfunktion und Strategie) 
nur die gelernten Bewertungsfunktionen beteiligt sind und so insgesamt weni- 
ger Hyperparameter vorhanden sind und somit weniger Abhängigkeiten zwi- 
schen Hyperparametern bestehen. Bewertungsbasierte Verfahren sind jedoch 
in aller Regel zu off-Policy Actor Critic Methoden erweiterbar. 
Zusammenfassend ist der Fokus der Arbeit die Entwicklung modellfreier, ap- 
proximativer, bewertungsbasierter Methoden des bestärkenden Lernens zur 
Optimierung von Regelungsstrategien für Fertigungsprozesse mit endlichem 


Zeithorizont unter besonderer Berücksichtigung der Dateneffizienz. 
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Derartige Methoden werden fiir zwei unterschiedliche Klassen von Fertigungs- 
prozessen entwickelt. In Kapitel 4 werden partiell beobachtbare Fertigungspro- 
zesse mit geringer Episodenlänge betrachtet, wobei die Zielformulierung an- 
hand erwünschter Werkstück-Eigenschaften geschieht. Zur Evaluation werden 
die entwickelten Methoden zur Optimierung des zeitlichen Verlaufs der Nie- 
derhaltekräfte eines Tiefziehprozesses hinsichtlich der gewünschten Werkstück- 
Eigenschaften instanziiert. Ferner wird das Lernen optimaler Strategien auch 
unter variierenden Prozessbedingungen (hier exemplarisch der Schmierung) 
untersucht. Kapitel 5 behandelt die Optimierung von Prozesspfaden, wobei 
das Ziel anhand vorgegebener Mikrostrukturmerkmale des gewünschten Pro- 
zessergebnisses gegeben ist. Der dabei betrachtete allgemeine Deformations- 
prozess (dargestellt als Sequenz von Deformationsschritten) ist in Hinsicht auf 
den Zeithorizont, die Kardinalität des Aktionsraums sowie die Dimension der 
Zustandsbeschreibung von deutlich höherer Komplexität. Tabelle 3.1 fasst die 
zentralen Unterschiede der zur Untersuchung genutzten exemplarischen An- 


wendungsfälle aus Kapitel 4 und Kapitel 5 zusammen. 


Tabelle 3.1: Gegenüberstellung der Anwendungsfälle der Kernkapitel 4 und 5. 


Charakteristik Tiefziehen (Kap. 4) allg. Deformation (Kap. 5) 
Prozessschritte 5 bis zu 100 
Aktionen 5 201 
Observablenraum R? R“ 

Partielle Beobachtb. x 

äquivalente Ziele x 

Ziel Werkstück-Eigensch. Mikrostruktur 
Materialmodell Isotrop Anisotrop 
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Die zentrale Forschungsaufgabe, die in Kapitel 4 behandelt wird ist die Ent- 
wicklung und Untersuchung von modellfreien Methoden des bestärkenden Ler- 
nens zur online-Optimierung von Regelstrategien fiir partiell beobachtbare Fer- 
tigungsprozesse mit geringer Episodenlänge. Hierzu wird aufbauend auf dem 
Prinzip der Zeitschritt-abhängigen Funktionsapproximationen von ABDP (Ka- 
pitel 2.2.4) und einem Lernschema in Anlehnung an NFQ im inkrementel- 
len Modus (Kapitel 2.2.7) ein neuartiger, bewertungsbasierter Algorithmus 
vorgestellt und untersucht. Dieser lernt online Regelungsstrategien für einen 
partiell beobachtbaren Prozess. Neben der methodischen Entwicklung ist ei- 
ne zentrale technische Herausforderung die Implementierung eines digitalen 
Prozess-Surrogats, das, basierend auf der Finite-Elemente-Methode simuliert, 
eine möglichst effiziente und realitätsnahe Experimentalumgebung darstellt. 

Der zweite Teil, beschrieben in Kapitel 5, behandelt die Anwendbarkeit von 
bestärkendem Lernen zur Optimierung von Prozesspfaden zur Erreichung ge- 
wünschter Mikrostrukturen eines Werkstück-Materials. In Kombination mit 
Methoden zur Abbildung von Materialeigenschaften auf Material-Strukturen 
soll dies die gezielte Entwicklung von Materialien unter der Angabe gewünsch- 
ter Materialeigenschaften erleichtern. Arbeiten, die ähnliche Fragestellungen 
behandeln, werden in 2.4.4 aufgeführt. Wie in 2.4.4 erläutert, basieren diese 
meist auf einer Suche in einer Menge vorberechneter Prozesspfade oder in da- 
von abgeleiteten generalisierenden Strukturen. In einer Veröffentlichung aus 
dem Jahr 2020 [89] wurde ein Verfahren zur dateneffizienten Optimierung von 
Prozessparametern vorgeschlagen, das während der Prozesspfad-Optimierung 
den Prozess abtastet und den sogenannten active Learning Algorithmen zuzu- 
rechnen ist. Das gleiche Ziel wird auch beim bestärkenden Lernen verfolgt. 
Dabei wird in [89] das Optimierungsproblem als Suche von zeitunabhängigen 
Prozessparametern betrachtet und nicht als Entscheidungsprozess formuliert. 
Durch die Betrachtung als Entscheidungsprozess sind Methoden des bestär- 
kenden Lernens online anwendbar und adaptieren Besonderheiten und sich än- 


dernde Bedingungen eines Prozesses. Außerdem erleichtert die Formulierung 
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als Entscheidungsprozess die Optimierung Zeit-abhängiger Prozessparameter 
und ist so auch in der Lage sehr lange Prozesspfade zu ermitteln. 

Ein zentrales Charakteristikum der Problemklasse ist, dass mehrere äquivalen- 
te Ziele (in unserem Fall mehrere Mikrostrukturen, welche die gleichen oder 
sehr ähnliche Materialeigenschaften aufweisen) existieren. Bei der Methoden- 
Entwicklung für die Findung optimaler Strategien ist dies zu berücksichtigen. 
Es gilt also, auf effiziente Art einen Prozesspfad zu ermitteln, der zu einer der 
äquivalenten Strukturen führt. Wie Tabelle 3.1 entnommen werden kann, sol- 
len gegenüber dem ersten Teil der Arbeit Prozesse mit einer deutlich höheren 
Anzahl an Prozessschritten berücksichtigt werden. Die Bewertung des Ergeb- 
nisses in Form eines Belohnungssignals ungleich Null findet gleichzeitig erst 
zum Ende einer Prozessausführung statt. Der Umgang mit diesen selten auftre- 
tenden Belohnungen stellt eine weitere Herausforderung dieser Problemklasse 


dar, der im Rahmen der Forschungsaufgabe begegnet werden muss. 
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4 Optimierung partiell 
beobachtbarer 
Fertigungsprozesse unter 
variierenden Einflüssen 


In diesem Teil der Arbeit werden Methoden des modellfreien bestärkenden 
Lernens für die adaptive online Optimierung von Regelungsstrategien partiell 
beobachtbarer Fertigungsprozesse mit endlichem Zeithorizont unter variieren- 
den Prozessbedingungen behandelt. Die behandelte Problemklasse und Fol- 
gerungen für den zugehörigen Markov-Entscheidungsprozess werden in Ab- 
schnitt 4.1 formuliert. In Abschnitt 4.2 wird der entwickelte Algorithmus zur 
effizienten Lösung der spezifizierten Problemklasse eingeführt und behandelt. 
Zur Untersuchung der entwickelten Methode wird diese für die Optimierung 
der zeitlich variierten Niederhaltekraft eines Tiefziehprozesses ausgeprägt. Ein 
interaktives digitales Surrogat des Tiefziehprozesses, basierend auf einer Pro- 
zesssimulation, wird in Abschnitt 4.3 vorgestellt. Ergebnisse der Untersuchun- 
gen werden in Abschnitt 4.4 vorgestellt. In Abschnitt 4.5 werden Möglichkei- 
ten zur Erweiterung der vorgestellten Methode zur multikriteriellen Optimie- 
rung von Fertigungsprozessen besprochen und anhand des Prozess-Surrogats 
untersucht. 

Die hier vorgestellten Methoden und Untersuchungen wurden als Zwischener- 
gebnisse der Arbeit in [80] und [92] veröffentlicht. 
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Abbildung 4.1: Schematische Darstellung des Optimierungsproblems anhand des unten betrach- 
teten Anwendungsfalls „Optimierung der Niederhaltekräfte eines Tiefziehprozes- 
el 
ses 


4.1 Aufgabenstellung 


Bei der in diesem Teil der Arbeit behandelten Problemklasse handelt es sich 
um Fertigungsprozesse mit festem Zeithorizont. Zur Beschreibung als Markov- 
Entscheidungsprozess wird von einer zeitlich diskreten Prozessregelung ausge- 
gangen. Fertigungsprozesse mit festem Zeithorizont zeichnen sich dadurch aus, 
dass das Produkt des Prozesses durch eine feste Anzahl 7 aufeinanderfolgender 
Prozessschritte mit zugehörigen Regelungsaktionen a; erzeugt wird. Die Opti- 
mierung der Regelungsstrategie zur Erreichung eines Produkts mit gewünsch- 
ten Eigenschaften für diese Prozesse kann als Markov-Entscheidungsprozess 
(MDP) mit festem Zeithorizont (siehe 2.2.1) formuliert und durch episodisches 
bestärkendes Lernen (siehe 2.2.5) gelöst werden. Eine Prozessausführung mit 
T Regeleingriffen entspricht dabei einer Episode. 

Für den Beispielprozess Tiefziehen ist in Abbildung 4.1 der Verlauf einer Epi- 
sode schematisch dargestellt. Der Agent erhält dabei über T Zeitschritte be- 
obachtbare Größen des Prozesses o; und führt Regelungsaktionen a; aus, die 
den weiteren Prozessverlauf beeinflussen. Am Ende der Episode, in Zeitschritt 
t = T, wird das Prozessresultat bewertet. Den Ergebnissen der Bewertung fol- 


gend wird ein Belohnungssignal rr generiert. Das Belohnungssignal während 


' Bildquelle Stahlrollen (links in der Abbildung): wikimedia.org, Creative Commons CC BY-SA 
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Abbildung 4.2: Graphendarstellung des Markov-Entscheidungsprozess fiir die deterministische 
Form des unten betrachteten Anwendungsfalls „Optimierung der Niederhaltekraf- 
te eines Tiefziehprozesses™. 


der Prozessausführung (r; für t < T) ist entweder neutral (r; = 0 fiir t < T), 
oder wird in Abhängigkeit der Aktions-bedingten Prozesskosten gewählt. 
Fertigungsprozesse zeichnen sich außerdem in vielen Fällen dadurch aus, dass 
Prozessaktionen innerhalb des Prozesses irreversibel sind. Beispiele hierfür 
sind Prozesse, bei denen metallische Werkstoffe plastisch verformt werden 
und Prozesse der additiven- oder subtraktiven Fertigung. Für diese Prozesse 
existieren pro Zeitschritt £ € [0,...,7] zueinander disjunkte Unterräume des 
Zustandsraums S;. Für einen deterministischen Prozess mit irreversiblen Pro- 
zessaktionen und festem Zeithorizont entspricht die Graphendarstellung des 
zugehörigen Markov-Entscheidungsprozesses einem Baum der Höhe T. Dabei 
entspricht der Ausgangszustand so der Wurzel und die Prozessresultate Sy den 
Blättern des Baums. Wenn außerdem die Menge der ausführbaren Aktionen A 
zeitunabhängig ist, entspricht es einem Baum mit konstantem Verzweigungs- 
faktor. Ein solcher Baum ist für den Beispielprozess Tiefziehen in Abbildung 
4.2 dargestellt. 
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In realen Prozessumgebungen kann jedoch selten von deterministischen Pro- 
zessen ausgegangen werden. Stattdessen unterscheidet sich jede Prozessaus- 
führung durch wechselnde Bedingungen. Solche wechselnden Bedingungen 
sind beispielsweise gegeben durch das vorliegende Material, die Schmierung 
des Prozesses und Erwärmung sowie Verschleiß des Werkzeugs. Aus die- 
sem Grund ist davon auszugehen, dass der Prozess variierenden Einflüssen 
und stochastischen Störgrößen unterliegt. Unter der Annahme, dass sich die 
Prozessdynamik der Prozessausführungen (Episoden) aufgrund der Einflüsse 
unterscheidet, während einer einzelnen Prozessausführung (Episode) jedoch 
ausschließlich von den gewählten Regelungsaktionen abhängt, entspricht die 
Graphendarstellung des zugehörigen MDPs einem sogenannten Wald (einer 
Menge von Bäumen). Hierbei entspricht eine Zusammenhangskomponente 
(ein Baum) einer individuellen Anfangsbedingung. 

Außerdem zeichnen sich reale Prozessumgebungen dadurch aus, dass der Pro- 
zesszustand s; zum Zeitpunkt ¢ während der Prozessausführung nicht vollstän- 
dig beobachtbar ist. Stattdessen können von s; abhängige Größen o; gemessen 
werden, die in der Regel aber nicht ausreichen, um den Zustand s; zu rekonstru- 
ieren. Außerdem ist die Messung der Werte o, üblicherweise mit einer Mess- 
ungenauigkeit versehen. Die formale Beschreibung des Optimierungsproblems 
als MDP weitet sich dann aus zu einem partiell beobachtbaren MDP (siehe 
2.3.1), wobei die Größen o; den Zustand s; nicht vollständig charakterisieren. 
Aufgrund von Messunsicherheiten liegen einzelne Werte o; ; außerdem nur in 
verrauschter Form vor, wobei häufig von additivem Gaußschen Rauschen aus- 


gegangen werden kann. o; ; liegt also in der Form 
ori = f(s) +N (0,0), (4.1) 


vor. Im Folgenden werden Methoden zur Optimierung der Regelungsstrate- 
gie während der Prozessausführung untersucht, die ohne im Voraus gegebenes 
Prozesswissen modellfrei Lernen. Insbesondere sind die Zustandsübergangs- 
funktion P und die Beobachtungsfunktion f : R” — R häufig nicht bekannt. 
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Aufgabe des Agenten ist dann die Optimierung der Regelungsstrategie anhand 


der beobachteten Größen o und Belohnungssignale r. 


4.2 Lösungsmethode 


In diesem Abschnitt wird ein Algorithmus zur Lösung der im vorangegangenen 
Abschnitt spezifizierten Aufgabenstellung durch modellfreies, bewertungsba- 
siertes bestärkendes Lernen vorgestellt: Backward Fixed-Horizon Neural O- 
Learning” (Kurz BFHNQ). 

Backward Fixed-Horizon Neural O-Learning (BFHNQ), stellt eine Form des 
bestärkenden Lernens durch Approximation der Q-Funktion dar. BFHNQ kann 
als Spezialfall der inkrementell lernenden Variante von Neural Fitted O-Ap- 
proximation [22] (Listing 6) angesehen werden. Ähnlich dem Backward Ap- 
proximate DP (BADP) Ansatz [2] (Listing 4) werden dabei Approximationen 
von Zeitschritt-abhängigen Bewertungsfunktionen rückwärts in der Zeit trai- 
niert. Im Gegensatz zu BADP, wo auf diese Art approximierte Zustands-Be- 
wertungsfunktionen V;(s, 0+) durch Nutzung eines Modells der Zustandsüber- 
gangsfunktion gelernt werden, werden durch BFHNQ approximierte Q-Funk- 
tionen Q,(s,a,6,) gelernt. Hierbei ist kein Modell der Zustandsübergangsfunk- 
tion und der Belohnungsfunktion zum Lernen und zur Extraktion von Strate- 
gien 7 erforderlich. 

Zum Umgang mit der partiellen Beobachtbarkeit von Fertigungsprozessen 
nutzt BFHNQ den Umstand, dass die Q-Funktion Zeitschritt-abhängig defi- 
niert ist. Dabei wird die bisher in der aktuellen Episode, in Form von beob- 
achtbaren Größen o und ausgeführten Aktionen a, ermittelte Information in 
einer pseudo-Zustandsbeschreibung § € $ zusammengefasst. Für pseudo-Zu- 


standsbeschreibungen § wird die Markov-Annahme 2.3.1 getroffen, sodass von 


? Vorgestellt in der Vorveröffentlichung [80] unter dem Namen Fixed Horizon Manufacturing Pro- 
cess O-control 
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einem MDP mit festem Zeithorizont (5 ,A,P,R,Y,Po,T) ausgegangen wird. Die 
Zusammenfassung der bisherigen Observablen und Aktionen geschieht durch 
Konkatenation der entsprechenden Vektoren. Der Pseudo-Zustand $, in Zeit- 


schritt tf = 0 ist definiert durch ën = 09 und in allen weiteren Zeitschritten durch 
8; = Š- > a;-1 TO, (4.2) 


wobei der Operator — reelle Vektoren konkateniert e~e : R” x R” > Wm, 
Durch die derartige Nutzung der vollständigen Information ist die Dimensi- 
on des Pseudo-Zustandsraums abhängig von t. Für ae R und o € R” gilt 
5, € R'+¢+1)", Für die vorgeschlagene Form der pseudo-Zustände wäre ei- 
ne herkömmliche, Zeitschritt-übergreifende Approximation der Q-Funktion 
O(§,a,@) aus diesem Grund nicht geeignet. Eine separate Approximation 
O,(8,,a,0,;) pro Zeitschritt ist aber ohne Weiteres mit der vorgeschlagenen 
Form vereinbar. 

Der gesamte BFHNQ Algorithmus ist in Listing 8 aufgeführt. Obwohl der Fo- 
kus in diesem Teil der Arbeit auf Entscheidungsprozessen mit festem Zeitho- 
rizont liegt, ist BFHNQ durch kleine Änderungen im Kontrollfluss auf Mar- 
kov-Entscheidungsprozesse mit endlichem Zeithorizont erweiterbar. Die ent- 
sprechenden Änderungen sind im Listing in roter Farbe markiert. Sie betreffen 
den Kontrollfluss im Fall, dass die Binär-Variable d angibt, dass die aktuelle 
Episode beendet ist (Zeile 12). Der Erwartungswert für den aktuellen pseudo- 
Zustand wird dann als O definiert (Zeile 13). Anschließend wird die aktuelle 
Episode beendet (Zeile 14). Im weiteren Verlauf des Kapitels, sowie in der Be- 
handlung des Anwendungsfalls spielt dieser Fall keine weitere Rolle und es 
wird von Entscheidungsprozessen mit festem Zeithorizont ausgegangen. 
Initial wird die Ausgabe der Q-Funktion Qr zum finalen Zeitschritt T als Kon- 
stant 0 definiert (Zeile 1). Die weiteren approximierten Q-Funktionen Q; kön- 
nen durch Setzen der Parameter 0; beliebig initialisiert werden (Zeile 3). Nach 


der Initialisierung der Q-Funktionen Q, und der Zeitschritt-abhängigen Replay 
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BACKWARDFHNQ(&,Ag,&,ne,no) 


1 Qr(sr,a, Or) = 0, Vsr € Ar, Wa € A,VOr 
2 fort=0tT-1 


3 initialize Q, parameters 6, 
4 D; +0 
5 fore =1ton, 
6 observe initial observable o 
T: S-o 
8 fort =OtoT—1 
9 execute a following 7 and observe (0’,r,d) 
10 SAS o oi 
11 D, + D, U{(8,a,8")} 
12 ide]: 
13 Qı (5a, 0) :=0, Va EA, VO; 
14 go to line 16 
15 sis 
16 if e divides ng: 
17 fort =T —1toO 
18 Learn parameters 0, of Q, based on D, and Q;+1. 


Listing 8. Backward Fixed-Horizon Neural Q-Learning. Rot markierte Code- 
Bestandteile: Ergänzung zum Backward Finite-Horizon Neural Q-Learning 


Memories D, (Zeilen 1 bis 4) wird fiir ne Episoden der Lernalgorithmus aus- 
geführt (Zeilen 5 bis 18). Dabei werden die pseudo-Zustände (4.2) folgend 
gebildet (Zeilen 7, 10, 15). Die Interaktion mit dem Prozess (Zeilen 6, 9) folgt 
dem Interaktions-Zyklus des bestärkenden Lernens (siehe 2.2.5). Die Lernstra- 
tegie 7 ist €-greedy (siehe (2.14) in 2.2.6) bezüglich den approximierten Q- 
Funktionen Q;. 

Nach jeweils no Episoden (Zeile 16) werden die Approximationen der Zeit- 
schritt-abhängigen Q-Funktionen neu gelernt. Das Neu-Lernen wird dabei wie 
oben besprochen rückwärts in den Zeitschritten durchgeführt (Zeile 17). Das 
Netz Q, wird basierend auf dem Replay Memory D, und der bereits trainierten 
Approximation Ou trainiert (wobei fiir t = T — 1 gilt O,,; = Qr = 0). Das 
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Trainings-Loss pro Erfahrungs-Tupel (§;,a;,8/+1,7,d) ist die quadrierte Abwei- 
chung (Q,(8;,a;, 8) — yo)” der bisherigen Q-Wert-Schätzung von dem Ziel- 


wert? 


yo=Q; +a(r+y max, 9,41 (&:+1,41+1, O41) — Q). (4.3) 
t+1 


4.3 Prozessinstantiierung 


Der im Vorangegangenen vorgestellte BFHNQ Algorithmus wird zur Untersu- 
chung und Evaluation für die Optimierung eines Tiefziehprozesses ausgeprägt. 
Der Erfolg der Fertigung und die Eigenschaften des Resultats eines Tiefzieh- 
vorgangs hängen wesentlich von der Kraft ab, die der Niederhalter während 
des Vorgangs auf das Werkstück ausübt. Aus diesem Grund ist die Wahl zeit- 
lich und/oder räumlich variierender Niederhaltekräfte Gegenstand einiger ver- 
wandter Forschungsarbeiten zur Optimierung und der optimalen Regelung des 
Tiefziehprozesses (siehe 2.4.3). 

Der Aufgabenstellung aus Abschnitt 4.1 folgend, wird die modellfreie Opti- 
mierung zeitlich variierender Niederhaltekräfte durch BFHNQ untersucht. Ei- 
ne Episode entspricht dabei, wie in Abbildung 4.1 bereits skizziert, einem 
Tiefziehvorgang mit anschließender Begutachtung des Tiefzieh-Ergebnisses. 
Grundlage der Untersuchungen ist ein Finite-Elemente-Simulationsmodell des 
Tiefziehprozesses, das in 4.3.1 beschrieben wird. Fokus der Untersuchungen 
ist die modellfreie Optimierung der Regelstrategie während der Prozessaus- 
führung. Wie beschrieben zeichnet sich ein solches Optimierungsproblem ins- 
besondere durch stochastisches Prozessverhalten und eine eingeschränkte Be- 
obachtbarkeit des Prozesszustands aus. Um diese Eigenschaften einer Realum- 


gebung nachzustellen, werden für die Untersuchungen die Simulationsläufe 


3 Bei der Anwendung von BFHNQ herausgestellt, dass eine Lernrate o kleiner 1 der Stabilität des 
Lernens zuträglich sein kann. 
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mit stochastisch gewählten Prozesseinflüssen initialisiert und aus den Ergeb- 
nissen der Simulation beobachtbare Größen abgeleitet. Die Modellierung der 
Prozesseinflüsse wird in 4.3.2 beschrieben. Observable Größen werden in 4.3.3 
spezifiziert. Die Ergebnisse der Begutachtung eines tiefgezogenen Werkstücks 
wird durch die in 4.3.4 vorgestellte Belohnungsfunktion quantifiziert. Die Im- 
plementierung der Untersuchungsumgebung wird in 4.3.5 erläutert. Bei den 
Untersuchungen verwendete Parameter des BFHNQ Algorithmus und Hyper- 


parmeter der verwendeten Q,-Netze sind in 4.3.6 aufgeführt. 


4.3.1 Simulationsmodell 


Zur Simulation des Tiefziehprozesses wird unter der Annahme der Rotations- 
symmetrie des Prozesses ein 2-dimensionales Finite-Elemente-Modell (FE- 
Modell) verwendet“. Unter der Annahme, dass das Material isotrope Verfor- 
mungseigenschaften aufweist, bildet das verwendete elastisch-plastische Ma- 
terialmodell die Eigenschaften des Fe-28Mn-9AI-0.8C Stahls, folgend [93], ab. 
Die getroffenen Annahmen ermöglichen die Simulation des Tiefziehprozesses 
in verhältnismäßig kurzer Zeit und somit eine umfassende Untersuchung der 
Lernalgorithmen. 

Das FE-Modell umfasst drei Werkzeuge und ein Bauteil und ist, zusammen 
mit den unten angeführten beobachtbaren Größen o und der Aktionsgröße a, 
in Abbildung 4.3 dargestellt. Beim Tiefziehen wird ein Blechzuschnitt (grau- 
es FE-Netz) durch einen Stempel (blaues Werkzeug) in eine Matrize (grünes 
Werkzeug) gedrückt. Der Niederhalter (rotes Werkzeug) drückt das Blech auf 
die Matrize. Das Werkstück hat eine Stärke von 2.5mm und einen Radius von 


40mm. Der Stempel hat einen Radius von 20mm. Der Vorschub des Stempels 


4 Das verwendete FE-Modell stammt aus der Veranstaltung Einführung in die FEM des Institut für 
Technische Mechanik am Karlsruher Institut für Technologie (KIT) 
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Abbildung 4.3: Darstellung der Werkzeuge und des Bauteils des verwendeten Simulationsmo- 
dells, der beobachtbaren Größen o und der Eingangsgröße a 


beträgt 25mm und wird mit konstanter Geschwindigkeit durchgeführt. Das de- 
formierbare Werkstück ist in 5 mal 80 rotationssymmetrische Vierknoten-Kon- 
tinuumselemente mit reduzierter Integration (Abaqus CAX4R) aufgeteilt. Die 
Werkzeuge sind als Starrkörper modelliert. 

Die Niederhaltekraft (Blank Holder Force, BHF) Fan ist zu sechs äquidistanten 
Zeitpunkten definierbar. Werte zwischen den diskreten Zeitpunkten sind line- 
ar interpoliert. Die Zeitpunkte entsprechen dem Beginn einer Episode t = 0 
und T = 5 aufeinanderfolgenden Prozessschritten t € [1,2,...,5]. Die Aktion 
a, in Zeitschritt t legt die Niederhaltekraft im nächsten Zeitschritt fest. Zur 


4.3 Prozessinstantiierung 


Anwendung des BFHNQ Algorithmus wurden die dabei wählbaren Werte dis- 
kretisiert und betragen [20kN,40kN,..., L40KN]. Die initiale Niederhaltekraft 
beträgt OkN 


4.3.2 Stochastische StorgroBen 


Das Prozessverhalten beim Tiefziehen variiert unter anderem aufgrund der 
Schmierung und Reibung an den Kontaktstellen der beteiligten Werkzeuge mit 
dem Werkstück [77]. Bei den Untersuchungen wird dies berücksichtigt, indem 
der Reibungskoeffizient u als stochastische Größe modelliert wird. Der Rei- 
bungskoeffizient u wird pro Episode e aus einer skalierten und diskretisierten 
Beta-Verteilung zufällig gezogen. Diese ist für 0 > x > 1 durch die Wahrschein- 
lichkeitsdichte 


f(x) PB (| — x) 167! (4.4) 


~ B(pg, an) 
definiert, wobei die Beta-Funktion B eine Normalisierungskonstante darstellt 
und die Parameter pg € R,qg € R die Ausprägung der Beta-Verteilung be- 
stimmen. 

Die fiir den Reibungskoeffizienten angenommene Beta-Verteilung, ist definiert 
durch die Parameter pg = 1.75 und qg = 5 und so skaliert, dass sie den Werte- 
bereich [0,0.14] annimmt. Zur mehrfachen Verwertung der Simulationsergeb- 
nisse (siehe 4.3.5) während der Untersuchungen wurde die Verteilung außer- 
dem diskretisiert, so dass die resultierende diskrete Verteilung auf einer Menge 
von 10 äquidistanten Werten im Intervall [0.014,0.14] definiert ist. Die resul- 
tierende Wahrscheinlichkeitsfunktion weist einen Modus von 0.028 auf und ist 
in Abbildung 4.4 dargestellt. 
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Abbildung 4.4: Darstellung der diskretisierten Beta-Verteilung des Reibungskoeffizienten u. 


4.3.3 Observable Größen 


Der Zustand s, für t > 0 ist abhängig von se, der Aktion a;_; und dem Rei- 
bungskoeffizienten u. Bis auf a,_; sind diese Werte dem Agenten nicht be- 
kannt. Stattdessen ist in jedem Zeitschritt ein Vektor 0; = (Fstempel; Ublech; Vnh) T, 


bestehend aus drei beobachtbaren Größen gegeben: 
e der aktuellen Stempelkraft Fyempel; 
e dem aktuellen Einzug des Bleches plech, 
e der aktuellen Position des Niederhalters in v-Richtung vnn- 


Die Messunsicherheit ist durch additives Gaußsches Rauschen modelliert. Die 
hierfür gewählte Standardabweichung beträgt 1% der jeweils experimentell er- 
mittelten empirischen Spanne von Fstempel UNd Upiech, sowie 0.5% der experi- 


mentell ermittelten empirischen Spanne von Vpn. 
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4.3.4 Belohnungsfunktion 


Wie fiir die Problemklasse in Abschnitt 4.1 beschrieben, wird nach Abschluss 
der Prozessausfiihrung das Resultat begutachtet und die Ergebnisse der Be- 
gutachtung durch die Belohnungsfunktion quantifiziert. Fiir den beschriebe- 
nen Tiefziehprozess setzt sich das Belohnungssignal zum Zeitpunkt T aus drei 


Qualitätskriterien zusammen: 
e Den Eigenspannungen des tiefgezogenen Werkstücks 
e Der minimalen Wandstärke des tiefgezogenen Werkstücks, und 
e Dem Materialverbrauch (Einzug). 


Der Zustand sr zur Berechnung des Belohnungssignals rr = R(sr) setzt sich 
aus drei Matrizen M,H,D € R”*" zusammen, die jeweils Werte der m = 5 
und n = 80 Flächenelemente des Bleches beinhalten. Der Wert M;; gibt dabei 
die mittlere Von-Mises-Vergleichsspannung des Flächenelements (ij), Hj; die 
Höhe bezüglich der Ausgangslage des Flächenelements (ij) und Dj; die Ver- 
schiebung in u-Richtung bezüglich der Ausgangslage des Flächenelements an 
Stelle (ij) an. 
Basierend auf der Zustandsbeschreibung sind drei Kostenterme Cmises; Cwand> 
Cyerbrauch € R zur Quantifizierung der oben beschriebenen Qualitätskriterien 
definiert. Der Kostenterm Cmises bewertet die Materialspannungen und ist defi- 
niert als 

Cmises = IN, (4.5) 


wobei |M||; = 4/ L721 Xj- Mi j? der Frobeniusnorm der Matrix M entspricht. 


Der Kostenterm Cyand gibt die minimale Wandstärke an 
Cwand = -min(1,H), (4.6) 


wobei 1, € R” dem Einsvektor entspricht. 
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Der Kostenterm Cyerbrauch reflektiert den Materialverbrauch als Summe der Ver- 


schiebungen der äußeren Elemente des Bleches 


m 


Cverbrauch = Din. (4.7) 
i=l 

Zur Erzeugung des skalaren Belohnungssignals werden zu den Kosten cı,! € 

mises, wand, verbrauch Belohnungsterme t = [tmises; “wand, verbrauch] berech- 


net. Die Belohnungsterme sind gegeben als 


c — chin 


u=s1- I _ 4.8 
1 a — chin ( ) 


wobei en, OT" € R jeweils empirisch ermittelte Minimal- und Maximalwerte 
des Kostenterms cı sind. 

Zur Berechnung eines skalaren Belohnungssignals wird das gewichtete harmo- 
nische Mittel 

Li, Wi 


n Wi 
i=1 x 


H(x,w) = (4.9) 
auf die Belohnungsterme t angewandt. Das harmonische Mittel wird verwen- 
det, um Prozessergebnisse mit ausgeglichenen Eigenschaften bezüglich der Be- 
lohnungsterme zu bevorzugen. Der Gewichtsvektor w mit ||w||, = 1 kann dabei 
genutzt werden, um den Einfluss der einzelnen Kostenterme in der Anwendung 
zu bestimmen. 

Fiir t < T und im Fall, dass ein Belohnungswert t; kleiner 0 vorliegt gilt R(s,) = 


0. Die Belohnungsfunktion ist damit gegeben als 


10x A(t,w) ‚„ifr=TAminft) >0, 
R(s;) = ee (©) (4.10) 
0 , else. 
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Die Skalierung der Belohnung um den Faktor 10 ist willkürlich gewählt und er- 
leichtert die Approximation der Bewertungsfunktionen durch künstliche Neu- 
ronale Netze. In Abschnitt 4.5 werden auf dieser Basis Untersuchungen zur 
multikriteriellen Optimierung vorgestellt. Wenn nicht abweichend angegeben, 
wird für die vorgestellten Untersuchungen von einer Gleichgewichtung der drei 
Terme ausgegangen. 

In Abbildung 4.5 ist die Höhe der Werte der drei Belohnungsterme in Abhän- 
gigkeit von der Abfolge der Niederhaltekräfte, im Folgenden auch als Prozess- 
pfad bezeichnet, dargestellt. Prozesspfade wurden mit dem in 4.3.1 definier- 
ten Modell mit einem deterministischen Reibungskoeffizienten von u = 0.028 
(entspricht dem Modus der in 4.3.2 beschriebenen Verteilung) simuliert. Der 
Wert des jeweiligen Belohnungsterms ist durch den Farbwert des Prozesspfads 
kodiert. Die Prozesspfade mit den drei höchsten Belohnungsterm-Werten sind 


jeweils hervorgehoben dargestellt. 


4.3.5 Implementierung 


Zur Untersuchung der in dieser Arbeit entwickelten Methoden anhand simu- 
lierter Fertigungsprozesse wurde eine generische Experimentalumgebung ent- 
wickelt, die die effiziente, flexible und reproduzierbare Ausführung von Expe- 
rimenten ermöglicht. Die Schichten und Module der generischen Umgebung 
sowie ein schematischer Informationsfluss zwischen den Schichten sind in Ab- 
bildung 4.6 dargestellt. Die generische Umgebung implementiert die OpenAI 
Gym Schnittstelle [94], wodurch insbesondere die Kommunikation mit dem 
Agenten in standardisierter Form geschieht. Diese Kommunikation geschieht 
aus Sicht des Agenten im allgemeinen Fall insbesondere durch das initiale Zu- 
rücksetzen der Umgebung und die Beobachtung der initialen beobachtbaren 
Werte (siehe Listing 8 Zeile 6) und während der Episode durch das Ausführen 
von Aktionen und die Beobachtung des Belohnungssignals r, der beobachtba- 
ren Werte ol und des Indikators d (siehe Listing 8 Zeile 9). 
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Abbildung 4.5: Wert der Belohnungsterme typises, wand» tverbrauch (in der Reihenfolge der Dar- 
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stellung) für alle 7° möglichen Prozesspfade mit einem Reibungskoeffizienten 
von u = 0.028. Pro Belohnungsterm ist jede Abfolge der Niederhaltekräfte dar- 
gestellt, wobei die Höhe des jeweiligen Wertes durch die Farbe repräsentiert 

ist. Die drei Abfolgen mit den jeweils höchsten Werten sind mit einer erhöhten 
Strichstärke dargestellt, alle weiteren halbtransparent mit einem Alphawert von 
0.01. Prozesspfade sind absteigend sortiert nach der Höhe des jeweiligenn Beloh- 
nungswertes dargestellt. Die diskreten Werte auf der y-Achse (Niederhaltekraft, 
[20kN,40KN, ..., 140KN]) wurden ab dem Zeitschritt t = 1 zu Gunsten der Darstel- 
lung manuell verrauscht. 


4.3 Prozessinstantiierung 


Umgebung 
- Visualisierung 
- Protokollierung 


Simulations-Wrapper 
- Parallelisierung 
- Persistierung 


Prozess- 
stochastik 


es 


Belohnungs- 
funktion 


Ergebnis Prozess- 
Datenbank simulation 


Observations- 
funktion 


Abbildung 4.6: Architektur und schematischer Informationsfluss der simulationsbasierten Umge- 
bung 


Abbildung 4.6 stellt eine Draufsicht der Software-Schichten dar, wobei die 
Helligkeit der Farbe die Höhe der jeweiligen Schicht repräsentiert. Der Infor- 
mationsfluss findet dabei hierarchisch von unten (OpenAI Gym) nach oben 
(Prozesssimulation) und umgekehrt statt. Die Informationsflüsse zwischen 
Modulen auf gleicher Ebene sind durch Pfeile gekennzeichnet. Die Umgebung 
implementiert die OpenAI Gym Schnittstelle und kümmert sich unter ande- 
rem um die Protokollierung und Visualisierung des Experiment-Fortschritts, 
sowie die Vermittlung zwischen Agent und simuliertem Prozess. Aktionen des 
Agenten werden zusammen mit zufällig erzeugten Prozessbedingungen an den 
Simulations-Wrapper weiter gereicht. 

Der Simulations-Wrapper vermittelt zwischen Umgebung und Prozesssimula- 
tion und kümmert sich um die Persistierung der Simulations-Ergebnisse und - 
Zwischenergebnisse, sowie die konfliktfreie parallele Durchführung von Simu- 
lationen. Die notwendigen Simulationsrechnungen, beispielsweise durch die 
Finite-Elemente-Methode, sind häufig sehr rechenintensiv. Der simulierte Zu- 


stand in jedem Zeitschritt einer Episode ist abhängig von bisher ausgeführten 
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Aktionen a und den stochastischen Störgrößen und kann in Form des Simu- 
lationszustandes persistiert werden. Wenn, wie im hier vorliegenden Fall, so- 
wohl Aktionen (siehe Kapitel 4.3.1) als auch Prozessbedingungen (siehe 4.3.2) 
Elemente einer diskreten Menge sind, können Simulationszustände einer Epi- 
sode bei weiteren Episoden mit identischen Prozessbedingungen ausgehend 
von t = 0 bis zu einem Punkt, an dem die Episoden sich unterscheiden, wie- 
derverwendet werden. Aus diesem Grund werden Simulationszustände in je- 
dem Zeitschritt der Episode persistiert. Eine weitere Strategie neben der Per- 
sistierung ist die Parallelisierung der Simulationen. So ist es beispielsweise 
möglich, mehrere Experimente parallel durchzuführen und so gegebene Re- 
chenkapazitäten effizient zu nutzen. Der Simulations-Wrapper kümmert sich 
dabei um die Vermeidung von Konflikten bei der Durchführung der Simulati- 
on und dem Zugriff auf Simulationsergebnisse. Nachdem eine Aktion a durch 
den Simulations-Wrapper behandelt wurde, werden die Belohnungsfunktion 
und Observations-Funktion auf die Simulationsergebnisse angewandt und die 
resultierenden Größen (r,0’,d) zurück-gegeben. 

Für die in diesem Kapitel beschriebenen Untersuchungen wird die Tiefzieh- 
simulation mittels ABAQUS durchgeführt, wobei für die Interaktion während 
der Episode die ABAQUS Python-Schnittstelle (siehe [95]) in Kombination mit 
der restart-Funktionalität (siehe [96], Kapitel 9.1.1) genutzt wird. Die Simula- 


tionszeit beträgt dabei für zwei 2.6 GHz Prozessorkerne in etwa 60 Sekunden. 


4.3.6 Versuchsaufbau, Netzarchitekturen und 
Parameter 


Zur Untersuchung des BFHNQ Algorithmus wurde dieser auf den im Voran- 
gegangenen beschriebenen, simulierten Tiefziehprozess angewandt. Ergebnis- 
se der Untersuchungen werden in 4.4.1 vorgestellt. Wenn nicht explizit ab- 
weichend angegeben wurden bei den Untersuchungen die folgenden BFHNQ- 


Parameter verwendet: 
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BFHNQ wird mit einer Lernrate von & = 0.7 ausgeführt. 


Die Explorationsrate der Lernstrategie in Episode e ist definiert ent- 
spricht € = £o x exp(—A¢e). für £o = 0.3 und die Zerfallsrate Ag = 10°. 
Sie ist definiert durch die initiale Explorationsrate eu = 0.3 und die Zer- 
fallsrate Ag = 1073. 


Der Diskontierungsfaktor beträgt y = 1. 


Die Q;-Netze werden nach jeweils ng = 50 Episoden trainiert. 


Die künstlichen Neuronalen Netze zur Approximation der Q-Funktion (Q,- 
Netze) sind feedforward Netze und werden Batch-weise mittels L-BFGS trai- 
niert (siehe Anhang A.0.2). Hyperparameter und Besonderheiten beim Trai- 


ning sind im Einzelnen: 


e Die Q,-Netze verfügen über jeweils zwei versteckte Schichten mit Re- 
LU Aktivierungsfunktion. Die Anzahl der Neuronen beträgt 10 in je- 
der versteckten Schicht für Qı und 50 in jeder versteckten Schicht für 
Q2, Q3, Q4. 


° Zum Lernen der Q,-Netze werden die Belohnungen quadriert, da sich 
während der Untersuchungen herausgestellt hat, dass dies zu verbesser- 
ter Dateneffizienz führt. In 4.4.1 dargestellte Ergebnisse und Abbildun- 
gen basieren auf den nicht-quadrierten Belohnungssignalen der in 4.3.4 
beschriebenen Belohnungsfunktion. 


e Bei dem Training der Q,-Netze wird L2-Regularisierung angewandt. 


Die Q-Funktion für den Zeitpunkt t = 0, Qo stellt einen Spezialfall dar und 
wird nicht durch ein Neuronales Netz approximiert. Da bei dem beschriebenen 
Anwendungsfall die beobachtbaren Größen zu Beginn der Episode keine Infor- 
mation bezüglich der Prozessbedingungen beinhalten, unterscheidet sich die 
Beschreibung des Startzustands sg nicht zwischen den Episoden. Die Bewer- 
tungsfunktion Oo wird deshalb als tabellarische Q-Funktion über die Aktionen 
a € A gelernt. 
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Die Parameter und Hyperparameter zur Untersuchung der Dateneffizienz im 
deterministischen Fall, vorgestellt in 4.4.2, weichen in den folgenden Punkten 
ab: 


e BFHNQ wird mit einer Lernrate von œ = 1 und einer statischen Explo- 


rationsrate von € = 0.1 ausgeführt. 


Die Kapazität der Q,-Netze ist aufgrund der vereinfachten Aufgabenstel- 
lung reduziert. Qı und Oz bestehen aus jeweils einer versteckten Schicht 
mit 5 Neuronen bei Qı und 10 Neuronen bei Q2. Q3 und Q4 bestehen 
aus jeweils zwei versteckten Schichten mit 10 Neuronen im Fall von Q3 
und 50 Neuronen bei Q4. 


Die Q,-Netze werden nach jeweils ng = 10 Episoden trainiert. 


Der Reibungskoeffizient beträgt konstant 0.028. 


4.4 Ergebnisse 


4.4.1 Untersuchung des stochastischen Falls mit 
partieller Beobachtbarkeit 


Im Folgenden werden Untersuchungsergebnisse vorgestellt, die durch Anwen- 
dung des in Abschnitt 4.2 vorgestellten BFHNQ Algorithmus auf den in Ab- 
schnitt 4.3 beschriebenen Tiefziehprozess erzeugt wurden. Während der Un- 
tersuchung verwendete Parameter des Algorithmus und Hyperparameter der 
O,-Netze sind in 4.3.6 spezifiziert. Aufgrund der Stochastik der Lernstrategie 
2. der Prozessbedingungen (siehe 4.3.2) und der Prozessbeobachtung (siehe 
4.3.3) wurden Optimierungsläufe im Rahmen der Untersuchungen zur zuver- 
lässigen Quantifizierung der Ergebnisse wiederholt durchgeführt. Experimente 
bestehen aus jeweils zehn unabhängigen Optimierungsläufen. Als Baseline- 


Verfahren dient eine hypothetische nicht-adaptive Methode zur Bestimmung 
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Abbildung 4.7: Mittelwert und 95%-Konfidenzintervall der erwarteten Belohnung Rr in Abhän- 
gigkeit von der Episode e für zehn unabhängige BFHNQ Optimierungsläufe und 
die modellbasierte Baseline. Die erwartete Belohnung entspricht der mittleren 
Belohnung einer nicht-explorativen Strategie, die greedy den in e vorliegenden 
Q,-Netzen folgt. 


der optimalen Niederhaltekräfte im Vorfeld der Prozessausführung. Für die- 
se wird angenommen, dass sie über ein exaktes und wahres Prozessmodell 
verfügt, das allerdings von einem deterministischen Prozess ausgeht, so dass 
die Prozesseinflüsse durch das Baseline- Verfahren nicht berücksichtigt werden. 
Der angenommene deterministische Prozess besitzt einen Reibungskoeffizien- 
ten von 0.028. Dies entspricht dem Modus der diskretisierten Verteilung des 
Reibungskoeffizienten für den simulierten Tiefziehprozess (siehe Abbildung 
4.4). Das nicht-adaptive Baseline-Verfahren führt unter dieser Annahme eine 
Abfolge von Niederhaltekräften aus, die bezüglich des deterministischen Pro- 
zessmodells optimal ist. Diese Abfolge wurde durch eine vollständige Suche 


im Lösungsraum ermittelt. Die Baseline-Belohnung beträgt 5.13 und entspricht 
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dem Erwartungswert der Belohnung pro Episode, wenn die ermittelte Abfolge 
fiir den Surrogat-Prozess mit stochastischem Reibungskoeffizienten ausgefiihrt 
wird. 

Die Ergebnisse der Anwendung des BFHNQ Algorithmus in 10 unabhängigen 
Optimierungsläufen auf das partiell beobachtbare Surrogat des Tiefziehprozes- 
ses mit stochastischen Einflüssen sind in Abbildung 4.7 dargestellt. Jeder Op- 
timierungslauf besteht dabei aus ne = 1000 Episoden. Ergebnisse sind in Form 
des Mittelwerts und des 95%-Konfidenzintervalls der erwarteten Belohnung 
pro Episode angegeben. Die erwartete Belohnung in Episode e entspricht dem 
Erwartungswert der Belohnung für eine nicht-explorative (greedy) Strategie, 
die den jeweils in Episode e vorliegenden Q,-Netzen folgt, in Abhängigkeit 
von der Verteilung des Reibungskoeffizienten. Bei der Ermittlung der Werte 
wurden, pro Reibungskoeffizient u, die jeweils letzten greedy-Ausführungen 
aus den Episoden 0, ...,e berücksichtigt. Die graue gestrichelte Linie entspricht 
der erwarteten Belohnung des oben beschriebenen Baseline-Verfahrens. 

Um den Effekt der BFHNQ-Parameter auf das Lernverhalten zu untersuchen, 
wurden Experimente mit variierender Lernrate œ und variierender initialer Ex- 
plorationsrate en durchgeführt. Pro Parameter-Kombination wurden 10 unab- 
hängige Optimierungsläufe, jeweils bestehend aus 2500 Episoden, mit den 
entsprechend parametrisierten Algorithmus ausgeführt. Die Auswirkungen der 
Parameter haben sich dabei wie folgt dargestellt. 

Eine steigende Explorationsrate hat einen leicht negativen Einfluss auf die er- 
haltene Belohnung pro Episode. Der mittlere beobachtete Ertrag pro Episo- 
de Du während der ersten 250 Episoden beträgt fu = 4.69 für ën = 0.4 und 
Pu = 5.03 für ën = 0.1. In späteren Episoden nähern sich die Werte zwar an, 
das erhöhte Explorationsverhalten für en = 0.4 führt allerdings nicht zu einem 
sichtbaren Effekt bezüglich der Qualität der ermittelten Strategie. Die mittlere 
beobachtete Belohnung pro Episode in den Episoden e = 1250 bis e = 1500 
liegt bei fu = 5.75 für &9 = 0.4 und bei fu = 5.86 für & = 0.1 und während 
der letzten 250 Episoden bei fu = 5.89 für ën = 0.4 und fu = 5.95 für & = 0.1. 
Dies lässt die Folgerung zu, dass für den betrachteten Anwendungsfall BFHNQ 
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Abbildung 4.8: Verteilungen der online erhaltenen Belohnung für unterschiedliche Beobachtbar- 
keits-Szenarien, gruppiert für jeweils 500 aufeinanderfolgende Episoden e als 
Box-Plot und rechnerisch ermittelter Erwartungswert der Baseline-Belohnung. 


auch mit niedrigen Explorationsraten schnell konvergiert. Die Lernrate o hat 
nur einen sehr geringen Einfluss auf die Ergebnisse des BFHNQ Algorithmus 
für den betrachteten Anwendungsfall. Mittelwert f, und Standardabweichung 
fg der beobachteten Belohnung während der letzten 250 Episoden mit einer 
Explorationsrate von £) = 0.3 betragen für & = 0.5 (f, = 5.87, fo = 0.63), für 
&=07 (fu =5.89, fo = 0.78) und fire = 0.9 (Fy = 5.90, fo = 0.69). 

Neben der Parameter-Studie wurden Experimente durchgefiihrt, um den Effekt 
der partiellen Prozess-Beobachtbarkeit zu untersuchen. Für drei unterschied- 
liche Szenarien wurden je 10 unabhängige Optimierungsläufe ausgeführt. Er- 
gebnisse der Untersuchung sind in Abbildung 4.8 dargestellt. Im Szenario 


77 


4 Optimierung partiell beobachtbarer Fertigungsprozesse unter variierenden Einfliissen 


101 


ge + = iS 


CZ 


0.8 4 


© 


0.6 4 


0.4 4 
0.2 4 


an. + Qı 


500 1000 1500 2000 2500 
Episode e 


Determinationskoeffizient (R?) 


Abbildung 4.9: Verteilungen der Bestimmtheitsmaß-Werte (R?) der Q,-Netze für das Szenario 
partielle Beobachtbarkeit, ermittelt durch 5-fache Kreuzvalidierung und gruppiert 
für jeweils 500 aufeinanderfolgende Episoden e als Box-Plot. 


vollständige Beobachtbarkeit (blaue Boxen) sind die aktuellen Prozessbedin- 
gungen in Form des Reibungskoeffizienten für den Agenten als Teil der Zu- 
standsbeschreibung einsehbar. Das Szenario partielle Beobachtbarkeit (orange 
Boxen) entspricht dem vorgestellten und im Vorangegangenen untersuchten 
Standard-Szenario. Im Szenario keine Beobachtbarkeit (grüne Boxen) ist der 
Agent „blind“ und erhält keine beobachtbaren Größen. Hierbei ist die durch 
den Agenten während des Lernens erzielte Belohnung in Form eines kom- 
binierten Box-Plots dargestellt. Eine Box stellt die Verteilung der erhaltenen 
Belohnungen für das entsprechende Szenario über die 10 unabhängigen Opti- 
mierungsläufe und 500 aufeinanderfolgende Episoden dar. 

Die Güte der Q-Netze wurde jeweils nach dem Training der Netze durch 5-fa- 


che Kreuzvalidierung ermittelt. Zur Bewertung der Funktionsapproximationen 
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Abbildung 4.10: Verteilungen des Bestimmtheitsmaß-Werte (R?) der Q,-Netze für das Szenario 
vollständige Beobachtbarkeit, ermittelt durch 5-fache Kreuzvalidierung und 
gruppiert für jeweils 500 aufeinanderfolgende Episoden e als Box-Plot. 


Q1, Q2, Q3, Q4 wird das mittlere Bestimmtheitsmaß (RZ) der Kreuzvalidierung 
genutzt. In Abbildung 4.9 ist dieser für einen 2500 Episoden andauernden 
Lernvorgang des BFHNQ Algorithmus über die Episoden-Sequenz aufgetra- 
gen. Dabei werden jeweils die mittleren Werte des Bestimmtheitsmaßes aus 10 
aufeinanderfolgenden Trainingsphasen (entspricht 500 Episoden, dang = 50) 
zu einer Verteilung zusammengefasst. Dargestellt sind diese Verteilungen pro 
Modell Q, jeweils als Box-Plot. Für die Modelle Q7,Q3, Q4 steigt das Be- 
stimmtheitsmaß wie erwartet, aufgrund der anwachsenden Trainingsdatenmen- 
ge, an. Das Bestimmtheitsmaß für die Approximation der Q-Werte für den ers- 
ten Kontrollschritt Q; weist jedoch einen negativen Verlauf auf. Es konnten 
keine Hyperparameter der Q-Netze gefunden werden die zu einem abweichen- 
den Verhalten führen. 
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Grundlegend anders verhält es sich im Fall vollständiger Beobachtbarkeit, in 
dem der Reibungskoeffizient durch den Agenten als Teil der beobachtbaren 
Werte gegeben ist. Die Werte des Bestimmtheitsmaßes sind für diesen Fall in 
Abbildung 4.10 auf gleiche Art dargestellt. Hier nähert sich der Wert des mitt- 
leren Bestimmtheitsmaßes Q sehr schnell 1 an, was darauf hinweist, dass der 
negative Verlauf mit der partiellen Beobachtbarkeit zusammenhängt. Dieser 


Zusammenhang wird in Abschnitt 4.6 eingehender betrachtet. 


4.4.2 Untersuchung der Dateneffizienz im 
deterministischen Fall 


Eine wesentliche Eigenschaft eines Verfahrens zum Lernen optimaler Rege- 
lungsstrategien für Fertigungsprozesse ist die Dateneffizienz. Durch die Not- 
wendigkeit der Exploration während des Lernens entstehen in einer Surrogat- 
Umgebung Rechenkosten für die Simulation des Prozesses und in einer physi- 
kalischen Prozessumgebung Kosten durch erhöhte Fehlproduktionsraten. Die 
Dateneffizienz des BFHNQ Algorithmus wurde für eine deterministische Vari- 
ante des Tiefziehprozesses, vergleichend mit einem klassischen Hill-Climbing 
Ansatz, untersucht. Grundlage ist der in Abschnitt 4.3 vorgestellte Prozess. 
Der Reibungskoeffizient wurde allerdings, abweichend zu den bisher geschil- 
derten Untersuchungen der Beschreibung in 4.3.2, als konstant u = 0.028 an- 
genommen. Zur vollständigen Beschreibung des Zustandes genügt dann die 
Abfolge der bisherigen Aktionen der aktuellen Episode. Die Observablen (sie- 
he 4.3.3) entfallen und Zeile 10 aus Listing 8 wird ersetzt durch $ + š > a. 
Für die Untersuchungen wurde die in 4.3.4 eingeführte Belohnungsfunktion 
mit w = (0.25,0.25,0.5)T für t = (tmises, “wand, Tverbrauch) gewichtet. 

Als Grundlage der Untersuchungen wurden für den Prozess alle wählbaren 
Prozesspfade für u = 0.028 simuliert. Die Pfade sind in Abbildung 4.11 jeweils 
als Verlauf der Niederhaltekraft Fyn (siehe 4.3.1) abgebildet, wobei die Farbe 


des abgebildeten Pfads der Belohnung am Prozessende entspricht. Die vier, 
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4.4 Ergebnisse 


> u 


w 
Belohnung 


Niederhalterkraft (in 10kN) 
N 


Zeitschritt t 


Abbildung 4.11: Wert der in 4.3.4 eingeführten Belohnungsfunktion mit Gewichten w = 
(0.25,0.25,0.5)T für alle 7° möglichen Prozesspfade des Prozesses mit einem 
Reibungskoeffizient von u = 0.028. Pro Prozesspfad ist die Höhe der Belohnung 
durch die Farbe repräsentiert. Die drei Prozesspfade mit den höchsten Werten 
des jeweiligen Belohnungsterms sind mit einem Alphawert von 1 dargestellt, 
alle weiteren mit einem Alphawert von 0.01. Prozesspfade sind absteigend nach 
Höhe der Werte des jeweiligen Belohnungsterms sortiert. 


bezüglich der Belohnungsfunktion, besten Prozesspfade sind in der Abbildung 
hervorgehoben. 

Zur empirischen Quantifizierung der Dateneffizienz wurde untersucht, wie vie- 
le Prozesspfade durch den jeweiligen Algorithmus abgetastet werden, bis der 
beste Prozesspfad ermittelt wird und wie viele Abtastungen notwendig sind 
um einen der vier hervorgehobenen Prozesspfade zu ermitteln. Vergleichend 
untersucht wurden dabei: 


1. BFHNQ wie beschrieben, mit den in 4.3.6 spezifizierten Parametern und 
Netzarchitekturen. 


2. Einem Steepest Ascent random-Restart Hill Climbing Ansatz, der durch 
einen zufälligen Pfad initialisiert wird, in jedem Schritt alle benachbarten 
Prozesspfade evaluiert und den besten benachbarten Pfad als Ausgang 
für den nächsten Optimierungsschritt nutzt. Sobald ein lokales Optimum 
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Top 1 Top 4 


Dateneffizienz (logarithmisch) 
5 


BFHNQ Hill Climbing BFHNQ Hill Climbing 


Abbildung 4.12: Verteilungen der benötigten Samples in jeweils 100 unabhängigen Optimie- 
rungsläufen zur Ermittlung eines gesuchten Optimums (logarithmisch). Links: 
benötigte Samples zur Ermittlung des optimalen Prozesspfades bezüglich der 
Belohnungsfunktion. Rechts: benötigte Samples zur Ermittlung einer der vier 
besten Prozesspfade bezüglich der Belohnungsfunktion. 


erreicht ist, dass keinem der gesuchten Pfade entspricht, wird der Algo- 


rithmus mit einem zufällig gewählten Prozesspfad neu initialisiert. 


Die Verteilung der Anzahl der erprobten Prozesspfade über jeweils 100 un- 
abhängige Optimierungsläufe ist für beide Methoden in Abbildung 4.12 als 
kombinierter Box-Plot mit logarithmischer y-Achse dargestellt. Im Mittel wur- 
den durch BFHNQ 109.72 Prozesspfade abgetastet um den optimalen Prozess- 
pfad zu ermitteln und 42.41 Prozesspfade abgetastet um einen der vier besten 
Prozesspfade zu finden. Der Hill Climbing Ansatz benötigt hierfür im Mittel 
951.82 beziehungsweise 399.76 Samples. Exemplarische Optimierungsläufe 
der beiden Ansätze sind in Anhang B.0.1 dargestellt. 


82 


4.5 Multikriterielle Erweiterung 


4.5 Multikriterielle Erweiterung 


Die Formulierung der Prozessoptimierung als Markov-Entscheidungsprozess 
umfasst die Definition einer skalaren Belohnungsfunktion. Häufig werden hier- 
zu, wie in 4.3.4, mehrere Belohnungsterme t; kombiniert, indem eine Skalari- 


sierungsfunktion f angewandt wird 


R(s) = f(t,w). (4.11) 


Gewichtswerte w; € R werden dabei genutzt, um einzelne Belohnungskriterien 
t zu priorisieren. Der Gewichtsvektor w € R”, für den gilt w; > OVi, ||w]|, = 1, 
wird im Folgenden auch als Konfiguration der Belohnungsfunktion bezeich- 
net. Einzelne Belohnungskriterien sind oft gegenläufig und die Konfiguration 
ändert sich in einigen Anwendungen über die Zeit. So hängt beispielsweise 
die Abwägung von Materialverbrauch und Produktqualität von zeitlich varia- 
blen wirtschaftlichen Rahmenbedingungen (bspw. dem Materialwert) und an- 
wendungsbezogenen Rahmenbedingungen (bspw. den für den Anwendungs- 
kontext spezifizierten Qualitätseigenschaften des Produkts). In der Praxis wird 
die aktuelle Konfiguration manuell oder durch einen Algorithmus auf der Pro- 
zessplanungs-Ebene vorgegeben. Da die skalare Belohnungsfunktion R von der 
Konfiguration abhängt, sind gelernte Erwartungswertfunktionen der zukünfti- 
gen Belohnung (Q-Funktionen) durch die Änderung der Konfiguration hinfäl- 
lig. Eine Möglichkeit, dem zu begegnen, ist das Lernen einer multi-kriteriellen, 
QMK 


vektorwertigen Q-Funktion , wobei QMX den Erwartungswert bezüglich 


des Belohnungsterms t; darstellt [41]. 
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4.5.1 Erweiterungsansatz 


In diesem Abschnitt wird eine Erweiterung des BFHNQ Algorithmus behan- 
delt, die es ermöglicht, auch in dem skizzierten Fall zeitlich variierender Kon- 
figurationen der Belohnungsfunktion mit linearer Skalarisierungsfunktion ef- 
fizient zu lernen. Ergebnisse der Untersuchung des erweiterten Algorithmus 
fiir den in Abschnitt 4.3 beschriebenen Anwendungsfall werden anschlieBend 
erläutert. 

Anstelle des skalarisierten Belohnungssignals r erhält der BFHNQ-Agent nun 
den Belohnungsvektor t € R” und lernt eine vektorwertige Q-Funktion OMK 
wobei QMK dem approximierten Erwartungswert der zukünftigen Belohnung t; 
entspricht. Die Skalarisierungsfunktion f und die aktuelle Konfiguration w wird 
als bekannt angenommen. Für ein multikriterielles Erfahrungs-Tupel (So. Sr) 
ist die i-te Komponente yomx ; der Zielgröße des QMK_Netzes durch Übertra- 


gung der O-Learning Update Regel aus (4.3) für Q, = Q,($,a, 0,) gegeben als 


Yoox ; = QM + a(t; + ymax Qin @ a’, O41) — QM *) (4.12) 
a 


Bei dieser Form des Updates wird a’ für jeden Term r; unabhängig voneinan- 
der ermittelt. Dies ist problematisch und führt zu einem systematischen Verzer- 
rungseffekt, da hierbei vorausgesetzt wird, dass die Zielstrategie für den jewei- 
ligen Term, unabhängig von den anderen Termen, optimale Entscheidungen 
trifft, was die vorhandenen, wechselseitigen Abhängigkeiten vernachlässigt. 
Um dies zu vermeiden, werden bei multikriteriellen Verfahren üblicherweise 
on-Policy Updates verwendet. Das entsprechende SARSA Update (siehe 2.2.6) 
für das Erfahrungs-Tupel ($,a,t,8’,a’) ist definiert als 


Yon = OME + a(t+ YOM (8a, 0:41) — O"*). (4.13) 
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Da das hierfiir verwendete Replay Memory D aus historischen Erfahrungsda- 
ten besteht, wurde die Folgeaktion a’ nicht der aktuellen Lernstrategie 7 fol- 
gend ausgeführt, sondern entstammt der Lernstrategie zum Zeitpunkt der Er- 
fahrung. Aus diesem Grund werden für das SARSA Update die historischen 
Daten (§,a,t,8’) aus D genutzt und a’ während des Updates unter Berücksich- 
tigung der aktuellen Lernstrategie 7 erzeugt”. 

Zur Bestimmung der greedy-Strategie 7, und der davon abgeleiteten e-greedy 
Lernstrategie 7 für eine gegebene Konfiguration w wird die Skalarisierungs- 


funktion f auf den Vektor der Term-weisen erwarteten Belohnungen angewandt 


m(s;,w) = arg max f(Q/"* (s;,a, 041), w). (4.14) 
acA 


Dabei wird angenommen, dass folgende Gleichung für alle s und w erfüllt ist 


arg max (5 MK (s,a),w)) = arg max (Qi z(s,a)), (4.15) 


acA acA 


wobei oF eine tabellarische vektorwertige Q-Funktion der Strategie 7 dar- 
stellt und die tabellarische skalare Q-Funktion Q; z Erwartungswerte bezüglich 
der skalaren Belohnung R = f(t, w) für 7 angibt. Diese Annahme trifft nur für 
lineare Skalarisierungsfunktionen f zu (siehe [97]). In Fällen mit nicht-linearer 
Skalarisierungsfunktion sind der beschriebene Ansatz und darauf basierende 
Algorithmen grundsätzlich als Heuristiken anzusehen. 

Die im Folgenden dargestellten Untersuchungen der beschriebenen Erweite- 
rung des BFHNQ Algorithmus für Fälle mit variabler Konfiguration basiert 
auf einer Variante des in Abschnitt 4.3 beschriebenen Optimierungsproblems. 
Die verwendete nicht-lineare Skalarisierungsfunktion entspricht der in (4.10) 


definierten Belohnungsfunktion R 


5 Wie sich bei der Analyse der Ergebnisse herausgestellt hat und unten weiter ausgeführt wird 
erzeugt auch die Verteilung der Aktionen a in den historischen Daten beim on-Policy Update 
einen Bias. 
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Lösung 
e Pareto-Optimum 


1.0 


0.9 


0.5 


0.4 


0.3 


-0.2 0.0 0.2 0.4 0.6 0.8 
verbrauch 


Abbildung 4.13: Erzielte Belohnungsterme twand, tverbrauch Pro Lösung für den Reibungskoeffi- 
zienten u = 0.028. Rote Punkte repräsentieren Pareto-Optima für u = 0.028. 
Blaue Punkte sind mit einem Alphawert von 0.2 dargestellt und repräsentieren 
dominierte Lösungen. 


ae 10x H(t,w) ,‚ifmin(t) >0, (4.16) 


0 , else, 
wobei t = (0,0) fürt < T gilt. Der Diskontierungsfaktor beträgt y = 1. Bei den 
Untersuchungen werden lediglich zwei der drei Belohnungsterme betrachtet, 
um das Optimierungsverhalten in zwei-dimensionalen Diagrammen darstellen 
zu können. Berücksichtigt werden die Belohnungsterme twang und tyerbrauch 
während der Belohnungsterm tmises bei den Untersuchungen keine Rolle spielt. 
Die insgesamt 7° unterschiedlichen Ausfiihrungen des Tiefziehprozesses mit 
einen festen Reibungskoeffizienten von u = 0.028 wurden vollständig simu- 
liert und sind in Abbildung 4.13 dargestellt. In der Abbildung sind pro Lösung 
die erhaltenen Belohnungen der Terme (twana, Tverbrauch) dargestellt. Diese Dar- 
stellung ermöglicht eine Abschätzung des Lösungsraumes und eine Annähe- 


rung der Pareto-Front bezüglich (twand; verbrauch). Rot dargestellte Lösungen 
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liegen auf der so angenäherten Pareto-Front und werden im Folgenden als Pa- 
reto-Optima bezeichnet. Ein Pareto-Optimum zeichnet aus, dass kein besseres 
Ergebnis bezüglich eines einzelnen Terms t; existiert, das nicht gleichzeitig in 
Bezug auf einen anderen Term tj, j 4 i eine Verschlechterung darstellt. Die 
Gesamtheit der Pareto-Optima wird als Pareto-Front bezeichnet. Abbildungen 
in Form von 4.13 fiir weitere Reibungskoeffizienten sind in Anhang B.0.2 dar- 
gestellt. 

Bei der Darstellung der Lösungsmenge für u = 0.028 in Abbildung 4.13 und 
für weitere Reibungskoeffizienten in Anhang B.0.2 fällt auf, dass ein großer 
Teil (tyerbrauch > 0.2) der Pareto-Front nahezu linear verläuft. Wie in Abbildung 
4.14 (a) dargestellt, gilt bei einem linearen Verlauf der Pareto-Front für eine 


lineare Skalarisierungsfunktion f = wu +Ww2t2 mit wı + wa = 1, dass 


e für eine bestimmte Konfiguration w = (w1 ,w2) alle auf der Pareto-Front 
liegenden Lösungen bezüglich f gleichwertig sind (mittlerer Fall in Ab- 
bildung 4.14 (a)), 


e für alle Konfigurationen w = (w/,w,) mit w} > wı die Lösung mit ma- 
ximalem Wert tj das Optimum bezüglich f darstellt (linker Fall in Ab- 
bildung 4.14 (a)) und 


e für alle Konfigurationen w’ = (w/w) mit w} > w2 die Lösung mit ma- 
ximalem Wert tz das Optimum bezüglich f darstellt (rechter Fall in Ab- 
bildung 4.14 (a)). 


Pareto-Optima, die in konkaven Bereichen einer Pareto-Front liegen sind für 
keine Konfiguration der linearen Skalarisierungsfunktion f optimal. 

Anders verhält es sich bei konkaven Skalarisierungsfunktionen wie der Funk- 
tion in (4.16). Für einen linearen Verlauf der Pareto-Front ist diese in istin Ab- 
bildung 4.14 (b) dargestellt. Für jede Konfiguration existiert in dem skizzierten 
Fall ein Pareto-Optimum und für jedes Pareto-Optimum auf der linearen Pare- 
to-Front existiert eine Konfiguration von f für die das Pareto-Optimum optimal 


ist. 
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u D 


(a) Lineare Skalarisierung f = w1 tı + w2t2 


0.8 an 02 


(b) Konkave Skalarisierung f((tı,t2)T, (wı,w2)T) nach (4.13) 


Abbildung 4.14: Optima in Bezug auf die lineare Skalarisierungsfunktion (a) und eine konkave 
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Skalarisierungsfunktion (b) für einen linearen Verlauf der Pareto-Front. Pareto- 
Optima sind als Punkte und Sterne abgebildet. Durch Sterne sind Pareto-Opti- 
ma gekennzeichnet, die bezüglich (f,w) optimal sind. Dargestellt sind jeweils 
von links nach rechts (a) die lineare Skalarisierungsfunktion in den Konfigu- 
rationen w = (0.3,0.7)T w = (0.5,0.5)T, w = (0.7,0.3)T und (b) die konkave 
Skalarisierungsfunktion in den Konfigurationen w = (0.1,0.9)T, w = (0.5,0.5)T, 
w = (0.9,0.1)T. Die konfigurierte Funktion f(e, w) ist jeweils durch den Farb- 
verlauf und vier äquidistante Isolinien dargestellt. 


4.5 Multikriterielle Erweiterung 


Die Ungenauigkeit der vorgestellten Heuristik aufgrund der nicht zutreffen- 
den Annahme 4.15 wächst mit zunehmender Streuung der Zustandsübergän- 
ge des Entscheidungsproblems. Um die Effektivität der heuristisch erweiter- 
ten Methode zeigen zu können, ist die Streubreite des Reibungskoeffizienten 
und der beobachtbaren Größen für die hier vorgestellten Experimente gegen- 
über den vorangegangen beschriebenen Experimenten reduziert. Parameter der 
Beta-Verteilung des Reibungskoeffizienten sind (Pg = 3,48 = 15). Das addi- 
tive Gaußsche Rauschen der beobachtbaren Größen wurde mit o = 0.5% für 


Fstempel, Ublech und O = 0.25% für vnn modelliert. 


4.5.2 Untersuchung und Ergebnisse 


Zur Untersuchung der multikriteriellen Erweiterung wurden aus vier Stufen 
a, b, c, d bestehende Experimente durchgeführt. Jede Stufe entspricht dabei 
einem n. = 1000 Lernepisoden andauernden Optimierungslauf mit individu- 
eller Konfiguration w. Die gelernte vektorwertige Q-Funktion ONE wird auf 
die jeweils Nächste Stufe, in Form der Zeitschritt-abhängigen Replay Memo- 
ries D, übertragen (vgl. 4.2). Die Konfiguration w wird pro Optimierungslauf 
unabhängig zufällig aus der Menge {(0.1,0.9)T, (0.2,0.8)T,...,(0.9,0.1)T} ge- 
zogen. Pro Stufe wird BFHNQ, Listing 8 folgend, ausgeführt. Zusätzliche Pa- 
rameter sind die initialen Replay Memories D,, die Skalarisierungsfunktion {, 
sowie die Konfiguration w. Die Initialisierung der Replay Memories (Listing 8, 
Zeilen 2 bis 4) entfällt. Die Lernstrategie 7 ist €-greedy, folgend (4.14) und an- 
stelle des skalaren Belohnungssignals r wird das vektorwertige Belohnungssi- 
gnal t beobachtet (Listing 8, Zeile 9). Die Zielgrößenberechnung beim Lernen 
der ONE Modelle geschieht entweder durch das multikriterielle Q-Learning 
Update (4.12) oder durch das multikriterielle SARSA Update (4.13) (Listing 8, 
Zeile 18). MORL Parameter sind £ = 0.1, Ae = 1073, œ =0.7,no = 50. 
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Abbildung 4.15 
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Episodes 
{900,1000) 


(800,900) 


(700,800) 


(600,700) 


(400,500) 


(300,400) 


(200,300) 


(100,200) 


(0,100) 


: Verlauf eines Experiments mit wechselnden Konfigurationen. Für vier aufein- 


anderfolgende Stufen (von a oben links bis d unten rechts) mit jeweils eigenen 
Konfigurationen (((0.9,0.1)T, (0.5,0.5)T, (0.9,0.1)T, (0.1,0.9)T)): Isolinien 
der Skalarisierungsfunktion in Abhängigkeit der Konfiguration und Optimie- 


rungsverlauf über jeweils 1000 aufeinanderfolgende Episoden, im Raum der 


Belohnungsterme Verbrauch» “wand 


4.5 Multikriterielle Erweiterung 


Q-Learning update 2 SARSA Update 
y 


Belohnung R 
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Abbildung 4.16: Verteilungen der erhaltenen Belohnung R pro Episode e für BFHNQ mit skala- 
ren Q,-Netzen und dem hier beschriebenen MK-BFHNO Ansatz mit Q-Lear- 
ning Update (links) und SARSA Update (rechts) für vier Stufen. Ein Box-Plot 
zeigt die Verteilung der erhaltenen Belohnungen für 250 aufeinanderfolgende 
Episoden und 100 unabhängig durchgeführte Experimente. 


Der Verlauf eines einzelnen Experiments ist in Abbildung 4.15 dargestellt. Die 
Konfiguration W = (Wyerbrauch; Wwand) der Belohnungsfunktion entspricht da- 
bei für die Stufen a bis d ((0.9,0.1)T, (0.5,0.5)T, (0.9,0.1)T, (0.1,0.9)T). Die 
konfigurierte Skalarisierungsfunktion ist pro Stufe in Form der 2.0-,4.0-,6.0- 
und 8.0-Isolinien dargestellt. Die 0.0-Isolinie liegt unabhängig von der Konfi- 
guration auf den Koordinatenachsen, da f(t, w) = 0 für min(t) < 0. Der Verlauf 
der Optimierung ist Pro Stufe durch eine Folge von 9 Punkten dargestellt, wo- 
bei die Koordinaten der Punkte jeweils die mittlere erhaltene Belohnung pro 
Term t in 100 aufeinanderfolgenden Episoden angeben. 

Zur quantitativen Untersuchung der multikriteriellen Erweiterung wurden die 
oben beschriebenen Experimente wiederholt durchgeführt. Stochastische Grö- 
Ben, insbesondere die Konfiguration pro Stufe und der Reibungskoeffizient pro 
Episode, wurden dabei unabhängig zufällig gezogen. Um zu untersuchen wie 


sich der systematische Verzerrungseffekt im Fall des off-Policy Q-Learning 
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Updates (4.12) auswirkt und wie es sich im direkten Vergleich zu dem on-Poli- 
cy Update (4.13) verhält, wurden beide Varianten evaluiert. Ebenso wurde der 
BFHNQ Algorithmus wie in 4.2 vorgestellt, mit skalarer Belohnungsfunktion 
und skalaren Q-Netzen, unter den hier beschriebenen Prozessbedingungen und 
zufällig gewählter Konfiguration der Belohnungsfunktion als Baseline evalu- 
iert. Für jedes dieser Experimente wurden 100 unabhängige Wiederholungen 
durchgeführt. 

Abbildung 4.16 stellt Ergebnisse der Experimente mit dem O-Learning Update 
(links) und dem SARSA Update (rechts) dar. Dabei ist jeweils die Verteilung der 
über die 100 Wiederholungen in 250 aufeinanderfolgenden Episoden erhalte- 
nen skalarisierten Belohnung Rr bzw. f zum Zeitpunkt T als Box-Plot darge- 
stellt. Ergebnisse der Experimente mit dem multikriteriellen Ansatz sind für die 
vier Stufen a bis d getrennt dargestellt. Ergebnisse pro Stufe, sowie Ergebnisse 
des skalaren BFHNQ-Ansatzes (blau) sind farblich voneinander getrennt. 
Abbildung 4.15 zeigt das Verhalten der multikriteriellen Erweiterung anhand 
eines einzelnen Experiments. Der Verlauf der Optimierung in Stufe a weist im 
Vergleich zu den nachfolgenden Stufen eine sehr hoher Varianz der Belohnun- 
gen t auf. Insbesondere in Stufe b und c befindet sich der Ausgangspunkt sehr 
nah an der gefundenen Lösung. Die Konfiguration der Belohnungsfunktion für 
die Stufen a und c sind identisch. Die in Stufe c gefundene Lösung ist der in 
Stufe a gefundenen Lösung deutlich überlegen. Diese Charakteristika spiegeln 
sich auch in den in Abbildung 4.16 dargestellten quantitativen Ergebnissen 
wieder. Die Statistiken der erreichten skalaren Belohnungen in der initialen 
Stufe a ist für beide Update-Formen deutlich niedriger wie die durch skala- 
res BFHNQ erreichten Belohnungssignale. Für beide Update-Formen ist ein 
positiver Effekt der Übertragung des Prozesswissens früherer Konfigurationen 
beobachtbar. Ab Stufe b sind beide Varianten während der ersten 250 Episo- 
den dem skalaren Ansatz deutlich überlegen. Im weiteren Optimierungsverlauf 
gleichen sich die Ergebnisse der Ansätze an. Gegen Ende der 1000 Episoden 


sind die mittleren erhaltenen Belohnungen des skalaren Ansatzes höher als die 
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durch die multikriteriellen Ansätze in den jeweils besten Stufen erreichten Er- 
gebnisse. Die mittlere Belohnung der letzten 250 Episoden beträgt für skalares 
BFHNQ 6.27, für die Variante mit Q-Learning Update in Stufe d: 6.18 und für 
die Variante mit SARSA Update in Stufe c: 6.11. 


4.6 Diskussion der Ergebnisse 


Im Folgenden werden die in diesem Kapitel vorgestellten Ergebnisse der Un- 
tersuchungen im Fall stochastischer Prozessbedingungen 4.4.1, im Fall eines 
deterministischen Prozesses 4.4.2 und im Fall der multikriteriellen Entschei- 
dungsoptimierung 4.5.2 zusammenfassend bewertet. Eine Diskussion der Al- 
gorithmen und Ergebnisse im Gesamtkontext der Arbeit findet in Kapitel 6.1 
statt. 

In 4.4.1 werden Untersuchungsergebnisse des BFHNQ Algorithmus für den 
partiell beobachtbaren Tiefziehprozesses unter variierenden Prozessbedingun- 
gen vorgestellt. BFHNQ wird dabei mit einem hypothetischen Modellbasierten 
Ansatz verglichen, der auf einem Prozessmodell beruht, das unter der Annah- 
me statischer Prozessbedingungen erstellt wurde. Abbildung 4.7 zeigt, dass 
BFHNQ mit zunehmender Erfahrung aus den Episoden immer bessere Stra- 
tegien lernt. Bereits nach etwa 150 Episoden übertrifft es das Baseline-Ver- 
fahren und erreicht im Mittel eine ca. 18% höhere Belohnung, welche hier 
die Qualität der Prozessresultate widerspiegelt. Dargestellt wird die erwartete 
Belohnung, wenn die aktuell gelernte Strategie ohne Exploration ausgeführt 
wird. Das Rauschen durch die €-greedy Lernstrategie wird dadurch, im Unter- 
schied zu den darauffolgenden Abbildungen der erhaltenen Belohnung, nicht 
abgebildet. Untersuchungen verschiedener Beobachtbarkeits-Szenarien sind in 
Abbildung 4.8 dargestellt. Erwartungskornform erzielt BFHNQ unter vollstän- 
diger Beobachtbarkeit bessere Ergebnisse als in dem Standard-Szenario der 


partiellen Beobachtbarkeit, da der Agent den Reibungskoeffizienten einsehen 


93 


4 Optimierung partiell beobachtbarer Fertigungsprozesse unter variierenden Einfliissen 


kann und so vom ersten Zeitschritt einer Episode an die Aktionen auf die ak- 
Dellen Prozessbedingungen abstimmen kann. Im Fall ohne beobachtbare Grö- 
ßen kann keine Anpassung an den Reibungskoeffizienten erfolgen. Folge sind 
deutlich schlechtere Ergebnisse und eine hohe Streuung der Ergebnisse. Der 
Erwartungswert ist hierbei nach einigen Episoden vergleichbar mit der modell- 
basierten Baseline, die aufgrund des eingeschränkten Modells ebenfalls nicht 
in der Lage ist, Aktionen in Abhängigkeit der Prozessbedingungen zu wählen. 
Untersuchungsergebnisse zu der Qualität der einzelnen Q-Netze für den par- 
tiell beobachtbaren Fall und den vollständig beobachtbaren Fall sind in den 
Abbildungen 4.9 und 4.10 dargestellt. Auffällig ist dabei die Verschlechterung 
des Q}-Netzes, die ausschließlich im Fall der partiellen Beobachtbarkeit und 
dort für das Q)-Netz auftritt. Die Ursachen hierfür stellen sich wie folgt dar. 
Das Modell Q; approximiert die Q-Werte für Paare (8. ou) aus rekonstruierten 
Zuständen $ı und Aktionen a, in Zeitschritt 1. Der rekonstruierte Zustand $ı 
wiederum setzt sich zusammen aus ao und oy (vgl. Abschnitt 4.2). In späteren 
Zeitschritten stehen weitere Observablen o; zur Verfügung die auf die aktuel- 
len Prozessbedingungen schließen lassen. Eine Analyse der Daten zeigt, dass 
der Informationsgehalt der beobachtbaren Größen 0; bezüglich des Reibungs- 
koeffizienten sehr gering ist und Q; sich im Wesentlichen auf die Aktionswer- 
te ag und a; verlässt. Während der frühen Episoden führt eine hohe Varianz 
in den Q-Funktionsapproximationen und die hohe Explorationsrate dazu, dass 
die Aktionen ao und aı annähernd gleichverteilt im Replay Memory vorliegen. 
In späteren Episoden sind die Entscheidungen der Lernstrategie in Zeitschritt 
O und 1 zunehmend stabiler. Die Aktionen ag und aufgrund des niedrigen In- 
formationsgehalts von 0; auch a; werden unabhängig von den Prozessbedin- 
gungen gewählt. Die durch das Modell erklärbare Varianz in den Daten nimmt 
folglich ab, wodurch der Wert des Bestimmtheitsmaßes sinkt. Hingegen ist im 
Fall vollständiger Beobachtbarkeit (Abbildung 4.10) der Reibungskoeffizient 
explizit als Teil von 09 gegeben und ein optimales Verhalten in Abhängigkeit 


von dem Reibungskoeffizienten kann auch für ao und a; gelernt werden. Der 
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Wert des Bestimmtheitsmaßes über die Zeit nimmt dann folglich auch für Qı 
zu. 

Ergebnisse von Untersuchungen der Dateneffizienz des BFHNQ Algorithmus 
im Fall gleichbleibender Prozessbedingungen werden in 4.4.2 vorgestellt. Den 
dargestellten Ergebnissen ist zu entnehmen, dass BFHNQ deutlich weniger 
Abtastungen des untersuchten Prozesses benötigt, um den optimalen Prozess- 
pfad beziehungsweise einen nahezu optimalen Prozesspfad zu ermitteln als 
der Hill-Climbing Ansatz. Dies begründet sich wie folgt. Während das ver- 
gleichsweise einfache Hill-Climbing Verfahren zufällig neu initialisiert wird, 
nachdem ein lokales Optimum erreicht wurde, wodurch jegliche Information 
über das Optimierungsproblem verworfen wird, lernt BFHNQ in Form der Q- 
Funktionen implizit eine Approximation der erwarteten Belohnungen und kann 
dieses Wissen zur gezielten Optimierung nutzen. Das Optimierungsverhalten 
der beiden Algorithmen ist in Anhang B.0.1 dargestellt. 

Ergebnisse der Untersuchung der multikriteriellen Erweiterung des BFHNQ 
Algorithmus sind in 4.5.2 dargestellt. Hierbei wird dargestellt, dass der Algo- 
rithmus dank der Erweiterung in der Lage ist, gelerntes Prozesswissen auf sich 
ändernde Zielvorgaben zu übertragen und so dateneffizient unter neuen Ziel- 
vorgaben zu lernen. Gegen Ende der 1000 Episoden übertreffen die Ergebnisse 
des skalaren BFHNQ allerdings die Ergebnisse der multikriteriellen Erweite- 
rung. Dies ist auf das nicht-Zutreffen der Annahme 4.15 zurückzuführen und es 
ist zu erwarten, dass sich diese Differenz der Ergebnisse für eine zunehmende 
Streuung der Zustandsübergänge weiter erhöht. Insbesondere auch das relativ 
gesehen schlechtere Abschneiden des SARSA Updates (siehe Abbildung 4.16) 
entspricht nicht den Erwartungen. Eine daraufhin durchgeführte Untersuchung 
des Ansatzes führt zu dem Schluss, dass ein Grund hierfür ist, dass die Vertei- 
lung der Zustands-Aktions Tupel (s,a) in D sehr stark von der Verteilung ab- 
weicht die, durch die aktuelle Strategie erzeugt werden würde. Dieses Problem 
verschärft sich durch die Übertragung der Erfahrungs-Daten aus alten Konfigu- 
rationen, weswegen in Stufe d eine Verschlechterung der Performanz auftritt. 


Ein möglicher Ansatz zur Behebung der in diesem Kapitel geschilderten, durch 
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die nicht-lineare Skalarisierungsfunktion und die Nutzung historischer Daten 


hervorgerufenen Probleme wird in Kapitel 6 geschildert. 
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5 Struktur-geleitete 
Optimierung von 
Fertigungsprozessen 


Im vorangegangenen Kapitel wird 
die Optimierung von Regelungsstra- 
tegien in Bezug auf die Bewer- 
tung des Prozessresultats anhand sei- 
ner Eigenschaften behandelt. Ferti- 
gungsprozesse wirken häufig direkt 
auf die Mikrostruktur des Werkstii- 
ckes und beeinflussen so die Eigen- 
schaften und die Leistungsfähigkeit 
des Materials. Diese Kausalitäts- 
kette Prozessausführung — Materi- 
al-Struktur — Materialeigenschaften 
— Leistungsfähigkeit des Materials 


Abbildung 5.1: three-link chain model nach 
Olson [98], in abgewandelter 


Form. Rot markiert: der Fokus 
der Struktur-geleiteten Optimie- 
rung von Fertingsprozessen. 


bildet das three-link chain model nach Olson [98] (Abbildung 5.1). Durch häu- 


fig nichtlineare komplexe Zusammenhänge zwischen Material-Struktur und - 


Eigenschaften ist es für die Prozessoptimierung vorteilhaft die Gütefunktion in 


dem Raum zu definieren in dem der Prozess wirkt, dem Raum der Material- 


Strukturen. 


97 


5 Struktur-geleitete Optimierung von Fertigungsprozessen 


In diesem Teil der Arbeit werden deshalb Methoden des bestärkenden Lernens 
entwickelt und untersucht, die zum Ziel haben Prozesspfade von Fertigungs- 
prozessen, welche die Struktur von Materialien verändern, zu optimieren. Die 
Optimierung hat das Erreichen einer bestimmten Zielstruktur oder eines Ele- 
ments aus einer Menge von Zielstrukturen zum Ziel und wird durch die Kennt- 
nis der aktuell vorliegenden Struktur geleitet. Zielstrukturen sind Strukturen, 
die vorgegebene Materialeigenschaften aufweisen. Die entwickelten Methoden 
sind für Strukturbeschreibungen auf beliebigen Skalen anwendbar. Im Kontext 
des Material Design, sowie in der unten vorgestellten Anwendungsstudie ist 
die Mikrostruktur von besonderem Interesse. 

Übergreifendes Ziel bei der inversen Optimierung der oben beschriebenen 
Kausalitätskette ist es, eine Möglichkeit zu schaffen, für gewünschte Mate- 
rialeigenschaften neue Materialien und zugehörige Fertigungspfade gezielt 
und automatisiert ermitteln zu können. Die Prozesspfadoptimierung mit Hin- 
sicht auf damit erreichte Zielstrukturen löst die Problemstellung, welche sich 
aus dem letzten Glied der invertierten Kausalitätskette ergibt und ergänzt die 
Methoden zur Abbildung von Materialeigenschaften auf Material-Strukturen. 
Methoden zur Abbildung von Materialeigenschaften auf hierfür erforderliche 
Material-Strukturen basieren meist auf Methoden der Optimierung sowie des 
überwachten Maschinellen Lernens. Ein Auszug der in den letzten Jahren vor- 
gestellten Methoden wird in 2.4.4 vorgestellt. 

Wie in 2.4.4 gezeigt, nutzen die meisten verwandten Arbeiten zur Ermittlung 
von Prozesspfaden zur Erreichung von Zielstrukturen entweder vorberechne- 
te Datenbanken oder davon abgeleitete generalisierende Modelle als Basis für 
eine Prozesspfad-Suche. Des Weiteren ist ein Großteil der vorgestellten Metho- 
den nicht ohne Weiteres auf lange Prozesspfade anwendbar. Diese Beschrän- 
kung auf eine vorgegebene Lösungsmenge wird durch die in diesem Kapitel 
entwickelten Methoden des bestärkenden Lernens vermieden, da diese die Pro- 
zesspfade in direkter Interaktion mit dem Prozess beziehungsweise der Pro- 
zesssimulation optimieren. Außerdem sind die vorgestellten Methoden in der 


Lage auch sehr lange Prozesspfade zu optimieren. 
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Prozesspfade Zielstrukturen Zieleigenschaften 
Struktur-geleitete Inverse 
Prozesspfad Struktur-Eigenschafts 
Optimierung Abbildung 
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Abbildung 5.2: Einbettung der vorgestellten Methode im Kontext der inversen Optimierung der 
Kausalitätskette. Eine Methode zur inversen Struktur-Eigenschafts-Abbildung 
ermittelt Zieleigenschaften K* aufweisende Strukturen oi ) Durch Struktur- 
geleitete Prozesspfad Optimierung werden Prozesspfade ermittelt die von einer 
Anfangsstruktur O9 zu einer der Zielstrukturen führen. 


Üblicherweise existieren mehrere Strukturen, die hinsichtlich der gewünsch- 
ten Zieleigenschaften äquivalent sind. Aufgabe der Prozesspfadoptimierung ist 
dann, die am besten erreichbare Zielstruktur aus der Menge dieser äquivalenten 
Strukturen zu ermitteln und einen Prozesspfad für diese Zielstruktur zu opti- 
mieren. In Abbildung 5.2 ist für den Fall mehrerer äquivalenter Zielstrukturen 
die Einbettung der vorgestellten Methoden in die inverse Optimierung der Kau- 
salitätskette Prozessausführung — Material-Struktur — Materialeigenschaften 
skizziert. Zieleigenschaften K* € R” liegen in einem Zielbereich des Eigen- 
schaftsraums (rot schraffiert), der hier stellvertretend als zweidimensionaler 
Vektorraum mit den Komponenten (K1, K2) skizziert ist. Durch Methoden zur 
inversen Struktur-Eigenschafts-Abbildung werden Material-Strukturen oi er- 
mittelt, welche die Zieleigenschaften aufweisen. Strukturen o werden durch 
eine numerische Strukturbeschreibung n(o) € R” repräsentiert. Der Struktur- 
beschreibungsraum ist in Abbildung 5.2 stellvertretend in zweidimensionaler 
Form (11,12) repräsentiert, liegt in der Anwendung aber meist in hoch-di- 
mensionaler Form vor. Die ermittelten Strukturen a stellen Zielstrukturen 
dar, zu deren Erreichung im nächsten Schritt ein Prozesspfad gefunden werden 
muss. Dies ist die Aufgabe der Struktur-geleiteten Prozesspfadoptimierung: 


Der Suche nach einem Prozesspfad P*, der von einer initialen Struktur O9 zu 
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einer der äquivalenten Strukturen ol) führt. Üblicherweise ist dabei durch Be- 
schränkungen des Prozesses und des Materials nur ein Teilbereich des gesam- 
ten Strukturraums erreichbar (blau schraffierter Bereich). 

Das Kapitel gliedert sich wie folgt: In Abschnitt 5.1 wird die oben beschriebe- 
ne Aufgabenstellung formal eingeführt. In 5.2.1 wird ein Ansatz des tiefen be- 
stärkenden Lernens zur Prozesspfadoptimierung für eine gegebene Zielstruktur 
entwickelt. In 5.2.2 wird ein erweiterter Ansatz zur effizienten Prozesspfad- 
optimierung für mehrere äquivalente Zielstrukturen entwickelt. Zur Analyse 
und Evaluation der entwickelten Methoden werden diese auf einen simulierten 
Metallverarbeitungsprozess angewandt, in welchem Zielstrukturen durch eine 
wählbare Folge aus einachsigen Druck- und Zug-Belastungen auf das Materi- 
al in unterschiedliche Richtungen erreicht werden. Die Strukturbeschreibung 
liegt dabei in Form der kristallographischen Textur vor. Die Simulation dieses 
Prozesses wird in 5.3.1 vorgestellt. In 5.3.2 wird der Markov-Entscheidungs- 
prozess für den Beispielprozess spezifiziert. Die entwickelten Methoden setzen 
die Definition einer Distanzfunktion im Strukturraum voraus. Für den Fall der 
Strukturbeschreibung durch die kristallographische Textur wird eine solche in 
5.3.3 für kristallographische Texturen entwickelt. Die hier vorgestellten Me- 
thoden und Untersuchungen wurden als Zwischenergebnisse der Arbeit in [8] 


veröffentlicht. 


5.1 Aufgabenstellung 


Ziel der Struktur-geleiteten Optimierung ist die Optimierung von Prozesspfa- 
den P = (ao,aı,..,ax) der Länge K < T, ausgehend von einer initialen Struktur 
On, wobei T die maximal erlaubte Anzahl der Prozessschritte ist. Gegeben ist 
eine Zielstruktur 6 € X oder eine Menge G von Zielstrukturen oi € G. Die 
Erreichbarkeit der Zielstrukturen 6 € X, bzw. eil durch den Prozess ist nicht 


garantiert. 
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Für den Fall, dass eine einzelne Zielstruktur 6 € X vorliegt, führt ein optimaler 
Prozesspfad P* von der initialen Struktur ou zu einer Struktur o". Die Struktur 
o* ist die der Zielstruktur 6 € X bezüglich einer Struktur-Distanzfunktion dg : 
EK RI am nächsten gelegene Struktur 


o* = argmin |do (0,6)], (5.1) 
Oe 


aus der Menge der durch den Prozess erreichbaren Strukturen Up C X. Weder 
Xp, noch o" sind im Vorfeld der Optimierung bekannt. 

Da die Struktur-Eigenschaftsabbildung üblicherweise eine n ` 1 Abbildung dar- 
stellt, sind häufig mehrere äquivalente Zielstrukturen al) € G anstelle der ein- 
zelnen Zielstruktur 6 gegeben. Ziel neben der Identifikation von o* und des 
Pfades zu o" ist dann die Identifikation der am besten erreichbaren Zielstruk- 
tur 6g € G: 


(0*,65)= argmin [a (o, di , (5.2) 
Lo al leën wg 

Die beschriebenen Aufgabenstellungen können als Markov-Entscheidungspro- 

zesse (MDP) mit endlichem Zeithorizont formalisiert werden. In 5.1.1 wird 

die Formulierung des Optimierungsproblems mit einer einzelnen Zielstruktur 

als MDP eingeführt. Darauf aufbauend wird in 5.1.2 ein neuartiger erweiter- 

ter MDP zur Behandlung von Fällen mit mehreren äquivalenten Zielstrukturen 


vorgestellt. 
5.1.1 Markov-Entscheidungsprozess mit einer 
Zielstruktur 


Für die Formalisierung als Markov-Entscheidungsprozess mit endlichem Zeit- 
horizont (S,A,P,R, y, Po,S) (siehe Kapitel 2.2.1) wird der Struktur-verändernde 


Prozess beschrieben durch eine Menge von Prozessaktionen a; € A und verhält 


101 


5 Struktur-geleitete Optimierung von Fertigungsprozessen 


sich folgend einer Zustandsiibergangsfunktion P. Der Prozess befindet sich in- 
itial in Zustand so. Eine Prozessausführung endet nach maximal 7 Zeitschrit- 
ten. Ziel ist die Maximierung der erwarteten y-diskontierten Belohnungen, ge- 
geben durch die Belohnungsfunktion R. 

Die Zustandsbeschreibung zum Zeitschritt t, s; € R”*” setzt sich zusammen 
aus einer numerischen, vektoriellen Repräsentation der aktuellen Material- 
Struktur o, bezeichnet als n(0;) € R”, für die angenommen wird, dass sie ©; 
bezüglich des Optimierungsziels vollständig charakterisiert. Gegebenenfalls 
wird die Zustandsbeschreibung um n weitere Größen ergänzt, die zusätzliche 
Information über den Zustand beinhalten, um den Lernprozess zu erleichtern. 
Dies ist beispielsweise der aktuelle Zeitschritt. 

Die Belohnungsfunktion R wird basierend auf einer Struktur-Distanzfunktion 
do so gewählt, dass die Maximierung der Belohnung zu der in (5.1) eingeführ- 
ten Struktur o" führt: 


1 
—— ‚ift=K-1, 
R(s1,0,,5141) = d del, Š) (5.3) 


0 , else. 


Die so gewählte Belohnungsfunktion ist maximal für ox = 0*. Sie hat außer- 
dem die Eigenschaft, dass, fiir einen neutralen Diskontierungsfaktor (y = 1), 
die für erwartete Belohnung V;-(s) der erwarteten inversen Distanz der Struk- 
tur am Ende der jeweiligen Episode ox zur Zielstruktur 6 entspricht. Im Fall 
eines deterministischen Prozesses ist die Bewertungsfunktion Vz(s) maximal 


für eine Strategie 7 die einen Prozesspfad zu ox = 0* erzeugt. 
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5.1.2 Markov-Entscheidungsprozess mit mehreren 
aquivalenten Zielen 


Wie im vorangegangenen Unterabschnitt gezeigt, ist das Optimierungsproblem 
mit einer einzelnen Zielstruktur als Markov-Entscheidungsprozess mit endli- 
chem Zeithorizont formulierbar. Im Fall mehrerer äquivalenter Zielstrukturen 
wäre dies durch eine Erweiterung der Belohnungsfunktion aus (5.3) möglich, 
indem am Episodenende das Belohnungssignal für die nächste der äquivalen- 


ten Zielstrukturen ausgegeben wird 


1 


oy 7 ift=K-1, 
Ris, 41,5141) = are min go eg (ale, al )) (5.4) 


0 , else. 


Diese Erweiterung der Belohnungsfunktion bringt allerdings Nachteile mit 
sich. Im Gegensatz zu der Formulierung fiir einzelne Zielstrukturen existiert 
nun pro Zielstruktur ein lokales Maximum der Belohnungsfunktion beziiglich 
Ox. Dies erschwert das Lernen und kann dazu fiihren, dass der Agent sich, trotz 
Exploration, beim Lernen früh auf eine sub-optimale Zielstruktur festlegt. Au- 
Derdem erschwert eine solche Erweiterung die Umformung der Belohnungs- 
funktion, die in 5.2.1 als Teil der Lösung der Struktur-geleiteten Optimierung 
vorgestellt wird und, wie in 5.4.1 gezeigt, einen wesentlichen Einfluss auf die 
Konvergenzgeschwindigkeit der entwickelten Methoden hat. 

Die Umformulierung der Belohnungsfunktion und die damit verbundenen 
Nachteile lassen sich vermeiden, indem der Agent während des Lernens die 
verfolgte Zielstruktur explizit festlegt und die Belohnungsfunktion in Abhän- 


gigkeit dieser verfolgten Zielstruktur definiert wird. Zu diesem Zweck wird als 
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Basis für die vorgestellten Methoden zur Optimierung mit mehreren äquivalen- 
ten Zielstrukturen eine neuartige erweiterte Form von Markov-Entscheidungs- 
prozessen mit endlichem Zeithorizont eingeführt: Markov-Entscheidungspro- 
zesse mit mehreren äquivalenten Zielen (multi-equivalent Goal MDPs, MEG- 
MDP.). 

Ein MEG-MDP ist eine erweiterte Form des in 2.2.1 vorgestellten MDPs mit 
endlichem Zeithorizont. Er ist definiert als 8-Tupel (S,50,A,P,Y,5,R¢,G). Die 
Definition der Prozessdynamik durch die Zustandsiibergangsfunktion P, defi- 
niert über dem Zustandsraum $ und dem Aktionsraum A, sowie der Einfluss 
des Diskontierungsfaktors y bleibt dabei unverändert gegenüber dem MDP mit 
endlichem Zeithorizont. Der Zustand so wird als gleichbleibender Anfangszu- 
stand angenommen und $ ist die Menge der möglichen Endzustände. Zusätz- 
lich ist eine Menge äquivalenter Ziele g € G gegeben und die Belohnungs- 
funktion R,(s,a,s’) in Abhängigkeit des Ziels g definiert. Pro Ziel g € G exis- 
tiert eine optimale Strategie 2. Da Ziele g € G äquivalent bezüglich des Opti- 
mierungsziels sind, ist die optimale zielübergreifende Strategie als Lösung des 
MEG-MDBPs definiert als 7* = 7%}, für g* = arg max seg Vš (so), wobei Vý (so) 
der Bewertung des Anfangszustands so bezüglich der Strategie 7, und der Be- 
lohnungsfunktion R, entspricht. 

Im Fall der Struktur-geleiteten Optimierung entspricht ein Ziel g € G einer 
Zielstruktur ay € G. Analog zu der zielabhängigen optimalen Strategie 7, 
existiert ein optimaler Prozesspfad P, pro Zielstruktur oe), Der optimale ziel- 
übergreifende Prozesspfad P* entspricht der Realisierung von 2" ausgehend 


von so. 
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5.2 Lösungsmethoden 


Die dargestellte Aufgabenstellung unterscheidet sich in einigen Punkten von 
der Aufgabenstellung bei der Optimierung partiell beobachtbarer Fertigungs- 
prozesse unter stochastischen Einflüssen (Kapitel 4). Aus diesem Grund wur- 
den im Rahmen der Arbeit spezielle Lösungsmethoden entwickelt, die im Kern 
aber auf demselben Lösungsansatz beruhen: Dem modellfreien bestärkenden 
Lernen auf Basis von Bewertungsfunktionen. Wesentliche Unterscheidungs- 


merkmale der Aufgabenstellungen sind im Einzelnen: 


1. Während in Kapitel 4 eine effiziente Lösungsmethode für die Optimie- 
rung von Fertigungsprozessen mit kurzem Zeithorizont vorgestellt wur- 
de, sollen die hier vorgestellten Methoden auch auf Optimierungsproble- 


me mit langem Zeithorizont anwendbar sein. 


2. Anders als in Kapitel 4, wo der Prozesszustand nur partiell beobachtbar 
war, wird hier von einer vollständigen Beobachtbarkeit und der Reprä- 
sentation der Material-Struktur in einem hochdimensionalen Strukturbe- 


schreibungsraum ausgegangen. 


3. Der in 5.1.2 eingeführte MEG-MDP motiviert sich aus der Tatsache, 
dass bei der inversen Optimierung der Kausalitätskette Prozess, Struk- 
tur, Eigenschaft zu gewünschten Materialeigenschaften eine Menge re- 
sultierender Zielstrukturen ermittelt wird. Etwas vergleichbares wurde in 
Kapitel 4 nicht behandelt. 


Der in Kapitel 4 vorgestellte Algorithmus BackwardFHNO approximiert die Q- 
Funktion pro Zeitschritt t € [0, .., T] jeweils durch ein separates Modell Q, (sie- 
he 4.2). Dies hat den Vorteil, dass die Dimension der Zustandsbeschreibung st 
in Abhängigkeit des Zeitschritts variieren Kann, was zur Optimierung des par- 
tiell beobachtbaren Prozesses genutzt wird. Außerdem ermöglicht es das effizi- 


ente Training der Erwartungswertmodelle, die bei BackwardFHNO regelmäßig 
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von Grund auf neu trainiert werden. Die Zeitschritt-abhängige separate Ap- 
proximation der Q-Funktion hat allerdings den Nachteil, dass eine Zeitschritt- 
übergreifende Generalisierung der approximierten Bewertungen ausgeschlos- 
sen ist. Außerdem erhöht sich der Trainingsaufwand bei BackwardFHNO mit 
zunehmend hohem Zeithorizont T. 

Im Gegensatz dazu wird bei den in 5.1.1 und 5.1.2 eingeführten Markov-Ent- 
scheidungsprozessen zur Struktur-geleiteten Optimierung davon ausgegangen, 
dass die Beschreibung n(0,) der aktuellen Material-Struktur o in jedem Zeit- 
schritt bekannt ist und s; bezüglich des Optimierungsproblems durch n(0;) 
vollständig charakterisiert ist!. Die Zustandsbeschreibung a besteht im We- 
sentlichen aus der vektoriellen Strukturbeschreibung n (0+) € R” und hält sich 
in einem Zeitschritt-unabhängigen Vektorraum R”+” auf (mit n zusätzlichen 
Variablen zur Vereinfachung des Lernproblems, siehe 5.1.1). Des Weiteren sind 
Beschreibungen der Material-Struktur n (0) in vielen Fällen von hoher Dimen- 
sion m und es sollen auch Fälle mit weitem Zeithorizont T berücksichtigt wer- 
den (in dem untersuchten Anwendungsfall ist m = 42, n = 2 und T = 100, siehe 
Abschnitt 5.3). 

Aus diesen Erwägungen heraus, die sich aus den Unterscheidungsmerkmalen 
1. und 2. ergeben, werden zur Lösung der in Abschnitt 5.1 eingeführten Aufga- 
benstellung Methoden entwickelt, bei denen Bewertungsfunktion Zeitschritt- 
unabhängig durch ein einzelnes Modell approximiert wird. Dies wirkt sich dar- 
in aus, dass die zu approximierende Funktion, verglichen mit den Zeitschritt- 
abhängigen Funktionen, von höherer Komplexität ist. Gleichzeitig stehen al- 
lerdings mehr Daten zum Training des einzelnen Modells zur Verfügung. Das 
Training rückwärts in den Zeitschritten, durch Nutzung des bereits trainierten 
Modells Ou +1) (siehe 4.2) entfällt. Hinzu kommt, dass insbesondere der Zu- 


standsraum von vergleichsweise hoher Dimension ist. Diese Faktoren führen 


l in Abschnitt 6.2 wird eine Erweiterungsmöglichkeit der in diesem Kapitel vorgestellten Metho- 
den für den Fall der partiellen Beobachtbarkeit skizziert. 
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im direkten Vergleich mit Kapitel 4 dazu, dass hier Modelle mit deutlich hö- 
herer Kapazität zur Approximation genutzt werden müssen, wodurch der Trai- 
ningsaufwand bedeutend steigt. Anstelle des wiederholten neu-Trainings der 
O-Netze ist hier deshalb ein Algorithmus mit fortlaufend verfeinernd trainier- 
ten Q-Netzen Voraussetzung für effizientes Lernen. 

Unterscheidungsmerkmal 3. bezieht sich auf die Besonderheit der äquivalenten 
Ziele bei der Formulierung der Prozessoptimierung im Raum der Material- 
Strukturen. Algorithmen können zwei grundsätzlich unterscheidbare Ansätze 


verfolgen, um damit umzugehen: 


(a) In einem ersten Schritt werden optimale Prozesspfade D pro dg € G er- 
mittelt, um retrospektiv den optimalen Prozesspfad P* = arg max eg P% 


und damit das optimale Ziel 65 zu identifizieren. 


(b) Die Identifikation der am besten erreichbaren Zielstruktur OG wird als 
integraler Bestandteil der Optimierung betrachtet und simultan mit der 


Optimierung der Prozesspfade gelöst. 


Für ein beliebiges Optimierungsverfahren für Probleme mit einzelnen Ziel- 
strukturen ist Ansatz (a) auf triviale Art umsetzbar indem das Verfahren auf 
jede Zielstruktur Gg separat angewandt wird. Diese separate Betrachtung be- 
deutet allerdings, dass für die Lösung des übergreifenden Optimierungspro- 
blems das Verfahren für jede Zielstruktur in G bis zur Konvergenz angewandt 
werden muss und die Kosten der Optimierung von der Kardinalität der Menge 
G abhängen. Wenn die Optimierung modellfrei in direkter Interaktion mit dem 
Prozess beziehungsweise einer Simulation des Prozesses stattfindet, entspre- 
chen diese Kosten der Anzahl der zur Optimierung notwendigen Interaktionen. 
Im Fall der Interaktion mit einer Simulation schlägt sich dies direkt im zeit- 
lich/rechnerischen Simulationsaufwand nieder. Im Fall der direkten Interakti- 
on mit einem Realprozess spielen zusätzliche Größen wie Werkzeugverschleiß 
und Materialverbrauch während der Optimierung eine Rolle. 

Im Unterschied dazu ist es bei der simultanen Identifikation von 65 und Pro- 


zesspfadoptimierung möglich, die genannten Ressourcen schon frühzeitig für 
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Zielstrukturen zu nutzen, die mit hoher Wahrscheinlichkeit effizient erreichbar 
sind und Zielstrukturen zu ignorieren, die als unerreichbar angesehen werden. 
Daher wird in 5.2.2 ein Ansatz des bestärkenden Lernens vorgestellt, der bei 
der Lösung von Struktur-geleiteten Optimierungsproblemen Ansatz (b) ver- 
folgt. 

Die Wahl des Basisalgorithmus des bestärkenden Lernens wurde aufgrund der 
hier spezifizierten Anforderungen getroffen. Die in 5.2.1 entwickelten Metho- 
den zur effizienten Struktur-geleiteten Optimierung mit einzelnen Zielstruktu- 
ren und die in 5.2.2 entwickelte Methode für mehrere äquivalente Ziele sind 
jedoch von generischer Natur und können in verschiedene Basisalgorithmen 


des bestärkenden Lernens integriert werden. 


5.2.1 Struktur-geleitete Optimierung mit einzelnen 
Zielstrukturen 


Die Struktur-geleitete Optimierung mit einzelnen Zielstrukturen ist als Pro- 
blem des bestärkenden Lernens zusammenfassend in Abbildung 5.3 illus- 
triert. Optimiert wird ein Prozesspfad P, der im Strukturraum Strukturen 
[00, 01, ...,Or+1] miteinander verbindet. Der Strukturraum ist abstrahiert als 
zwei-dimensionaler Vektorraum dargestellt. Die Menge der durch den Prozess 
erreichbaren Strukturen liegt in dem schraffiert dargestellten Bereich. Aktio- 
nen a; des Prozesspfades werden durch den Agenten vorgegeben. Der Agent 
wird geleitet durch Strukturbeschreibungen s; = n(0,) und ein auf der Struk- 
turdistanz dg(o;,6) beruhendes Belohnungssignal. Ziel der Optimierung ist 
die Ermittlung eines Prozesspfades von ou zu o* (5.1). Das durch die For- 
mulierung als Markov-Entscheidungsprozess tatsächlich verfolgte Ziel ist die 
Maximierung der erwarteten Belohnung (5.3). Beide Ziele sind fiir y = 1 in 
Ubereinstimmung (siehe 5.1.1). 

Bei Formulierung der Belohnungsfunktion aus (5.3) tritt ein Belohnungssignal 


ungleich Null nur am Ende einer Episode beim Übergang von sx_ zu sx auf. 
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Abbildung 5.3: Aufgabenstellung der Struktur-geleitete Optimierung mit einzelnen Zielstruktu- 
ren. Ziel ist die Optimierung eines Prozesspfades P zur Erreichung der Zielstruk- 
tur G6 von einer Anfangsstruktur on ausgehend. Der Optimierungs-Agent wird 
dabei geleitet von Beschreibungen der Struktur n(o) und von Belohnungssigna- 
len R, die von der Distanz im Strukturraum dg abhängen. 

Dem unten beschriebenen Anwendungsfall vorgreifend, werden jeweils die 
(001)-,(011)-,(111)-Polfiguren zur Strukturvisualisierung 


Insbesondere im Fall von langen Prozesspfaden (beziehungsweise Problemen 
mit hohem Zeithorizont T) kann dies dazu führen, dass sehr viele Samples 
benötigt werden, um den Einfluss einzelner Aktionen der Episode in Bezug 
auf das Belohnungssignal zu bestimmen?. Insbesondere in Fällen, bei denen 
die Prozessausführung ressourcenintensiv ist, kann dies in der Praxis dazu füh- 
ren, dass bestärkendes Lernen ohne weitere Modifikation nicht mit vertretbaren 
Mengen von Ressourcen vereinbar ist. Eine Möglichkeit, diesem Problem zu 


begegnen, ist das Potential-Based Reward Shaping, eingeführt in [51]. Zum 


2 dem sogenannten Credit Assignment Problem [16] 
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Lernen wird hierbei die Belohnungsfunktion R durch eine umgeformte Varian- 


te 


R=R+F. (5.5) 


substituiert. Die Umformfunktion F ist dabei definiert als 


F (8155141) = YPlsızı) - bis (5.6) 


wobei y der Discout-Faktor des jeweiligen MDPs ist und ® : S > R eine Po- 
tentialfunktion. Wie in [51] gezeigt, ist bei Entscheidungsprozessen mit endli- 
chem Zeithorizont mit einem einzelnen Endzustand die optimale Strategie 2" 
und Strategien nahe 27" invariant bezüglich der Substitution von R durch R’. Für 
Entscheidungsprozesse mit mehreren Endzuständen ist die Invarianz garantiert, 
wenn für den Endzustand sx jeder Episode ®(sx) = 0 gilt (siehe [99]). 

Um dieser Anforderung gerecht zu werden, wird in dieser Arbeit folgende Po- 


tentialfunktion definiert: 


0 ,ift=K 
(s) = 1 (5.7) 


— , else. 
dg(0;,6) 


Nach der Substitution von (5.3), (5.6) und (5.7) in die Umformungsgleichung 
(5.5) ist R’(s;,@;,5¢41) definiert durch 


1 

—— + y®(sx)— giel , iff =K-1 

ACHEN do(Ox,6) 

7 (5141) ia) ‚ else 

1 1 (5.8) 
= = ,ift=K-1 
— J do(G41,6) do(0,,6) 

Y I else 

ds (041,6) do (0,6) ` 
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Für den Fall, dass der Discount-Faktor neutral ist (y = 1) gilt in jedem Zeit- 
1 1 
schritt R’ = — = 
dein, OI del, Č) 
Im Gegensatz zu der Belohnungsfunktion R aus (5.3), emittiert die umgeform- 


te Variante R’ Belohnungssignale ungleich null auch während der Episode und 
ermöglicht so effizientes Lernen. Aufgrund der oben genannten Invarianzen 
kann R’ während des Lernens anstelle von R genutzt werden, ohne das Opti- 
mierungsproblem zu verfälschen. 

Die beschriebene Formulierung der Struktur-geleiteten Prozesspfadoptimie- 
rung als Markov-Entscheidungsprozess, die Umformung der Belohnungsfunk- 
tion, sowie die im folgenden Unterabschnitt beschriebenen Methoden zur effi- 
zienten Lösung von Problemen mit mehreren äquivalenten Zielstrukturen kön- 
nen in verschiedene Basisalgorithmen des bestärkenden Lernens integriert wer- 
den. Aus diesem Grund wird hier, wie bei der Optimierung partiell beobacht- 
barer Fertigungsprozesse in Kapitel 4 die Anwendung eines approximativen 
O-Learning Algorithmus als Basisalgorithmus untersucht. Aufgrund der oben 
beschriebenen Charakteristika der Problemstellung und den davon abgeleite- 
ten Anforderungen wird ein Basisalgorithmus gewählt, bei dem ein einzelnes 
Zeitschritt-unabhängiges Q-Netz fortlaufend verfeinernd trainiert wird. Der in 
2.2.7 vorgestellte Deep Q Networks (DQN) [23] Algorithmus erfüllt diese An- 
forderungen. Für eine erhöhte Dateneffizienz und Lern-Stabilität werden au- 
ßerdem die in 2.2.7 vorgestellten Erweiterungen Prioritized Experience Re- 
play [24], Double O-Learning [25], und Dueling O-Learning [26] genutzt. Als 
Lernstrategie wird die in 2.2.7 eingeführte €-greedy Strategie genutzt. wobei 
[23] folgend, die initiale Explorationsrate en während der ersten ng Episoden 


linear ge annähert und dann anschließend konstant gr beträgt. 
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5.2.2 Struktur-geleitete Optimierung mit mehreren 
aquivalenten Zielstrukturen 


Ausgehend von der im vorangegangenen Unterabschnitt vorgestellten Lö- 
sungsmethode mit einzelnen Zielstrukturen und der Formulierung der MEG- 
MDPs in 5.1.2 wird hier eine erweiterte Methode zur effizienten Lösung von 
Optimierungsproblemen mit mehreren äquivalenten Zielstrukturen vorgestellt. 
Dieser wird im Folgenden als MEG-SGPPO Algorithmus (für Multi-equiva- 
lent-Goal Structure-guided Processing Path Optimization) bezeichnet, wäh- 
rend der in 5.2.1 entwickelte grundlegende Algorithmus als SG-SGPPO (für 
Single-Goal Structure-guided Processing Path Optimization) bezeichnet wird. 
In Abbildung 5.4 ist die erweiterte Aufgabenstellung zusammenfassend skiz- 
ziert. Anstelle einer einzelnen Zielstruktur & ist nun eine Menge äquivalenter 
Zielstrukturen al) € G gegeben. Die Definition des Optimierungsziels aus 
(5.1) erweitert sich dann zu (5.2) und die Optimierung des Prozesspfades ist 
mit der Identifikation der am besten erreichbaren Zielstruktur Ke € G ver- 
knüpft. 

Der in 5.1.2 eingeführte MEG-MDP ist definiert durch das Tupel (S, s0,A,P, Y, 
TR, GI. Wie im vorangegangenen Unterabschnitt wird Potential-Based Re- 
ward Shaping genutzt um die nun Ziel-abhängige Belohnungsfunktion R, ana- 


log zu (5.8) umzuformen 


1 1 


do (0141, 62) dee 5) ‚ft=K-1 
R, = H G „Ög D 
(8) SH , else. 
de (0:41,65 ) do (0,6 ) 


Für die Ziel-abhängige umgeformte Belohnungsfunktion R werden Ziel-ab- 
hängige Bewertungsfunktionen gelernt. Die Zustandsbewertungsfunktion, wie 


sie in (2.3) in rekursiver Form eingeführt wurde, ist dann gegeben als 


V; a(s) = Erp SEN + Wo (S141) (5.10) 
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Abbildung 5.4: Aufgabenstellung der Struktur-geleiteten Optimierung mit mehreren äquivalen- 
ten Zielstrukturen. Gegeben ist eine Menge G bezüglich der Zieleigenschaften 
äquivalenter Zielstrukturen og ) € G. Ziel ist die Identifikation der durch den Pro- 
zess am besten erreichbaren Struktur 6g und die gleichzeitige Optimierung eines 
Prozesspfades P zur Erreichung von 6¢. 

Dem unten beschriebenen Anwendungsfall vorgreifend, werden jeweils die 
(001)-,(011)-,(111)-Polfiguren zur Strukturvisualisierung genutzt. 


Die optimale Zustandsbewertungsfunktion für g bezüglich R, ist dann gegeben 
als V,* = Wi? Auf gleiche Art wird die Q-Funktion Qx durch die zielabhängi- 
ge Q-Funktion Q’, „ bezüglich R; und die in 2.2.7 eingeführte Advantage-Funk- 
tion A, des Dueling Q-Learning durch die zielabhängige Advantage-Funktion 
AL bezüglich R, ersetzt. Auch hierbei gilt Q% = em und AC = Ag ng: 
Dem universal function approximators Ansatz aus [46] folgend werden zur Ap- 
proximation der zielabhängigen Bewertungsfunktionen diese um eine numeri- 
sche Repräsentation des Ziels als Parameter erweitert. Diese Repräsentation 
ist in dem vorliegenden Fall durch die Strukturbeschreibung n (5) gegeben. 
Hierdurch wird die Generalisierung der Bewertungsfunktionen über verschie- 
dene Zielstrukturen hinweg ermöglicht. Die optimale zielabhängige Zustands- 


bewertungsfunktion V,* bezüglich R, wird durch das Modell v (s, n( ail k d 
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approximativ gelernt. Auf gleiche Art werden OF durch 9(s,a,n (59),0) 


und A% durch A(s, a,n (59) : d angenähert. 

Der hier vorgestellte Algorithmus zum Lösen von MEG-MDPs basiert auf der 
Priorisierung der Zielstrukturen zu Beginn einer Episode und der approxima- 
tiven Identifikation der am besten erreichbaren Zielstruktur 65 anhand der ap- 
proximierten Bewertungsfunktionen. Hierbei kommt die in 5.1.1 beschriebene 
Eigenschaft der Belohnungsfunktion aus (5.3) zum Tragen, dass für y= 1 die 
für Strategie 7 erwartete zukünftige Belohnung dem Erwartungswert der inver- 
sen Distanz der am Ende der Episode erreichten Struktur ox zur Zielstruktur & 
entspricht. Für die optimale Ziel-abhängige Zustands-Bewertungsfunktion Vý 


ist dann OG identifizierbar durch 


55 = argmax [V,(so)]. (5.11) 
gEG 

Durch die beschriebene Umformung der Belohnungsfunktion werden anstelle 
von V% Erwartungswerte Vv." beziiglich der umgeformten Belohnungsfunktion 
RŠ approximiert. Wenn für die Potentialfunktion, wie im vorliegenden Fall 
(siehe (5.7)), B(sx) = 0 gilt, gilt für alle Zustände s € S auch 

KR (s) =Ve(s) —®(s) (5.12) 
(siehe [100]). 
Für die in (5.7) definierte Potentialfunktion ist V,‘(so) aus VU" Le) durch An- 
wenden der Gleichung 


Ve (so) = Ve (so) + (5.13) 


do (00, 55 


rekonstruierbar. 
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Ausgehend von der gelernten Approximation der optimalen Zustandsbewer- 
tungsfunktion U ~ V,“ bezüglich R, und durch Substitution von (5.13) in (5.11) 


ist eine Schätzung der am besten erreichbaren Struktur 6g gegeben durch 


Ög = argmax i (son (ail + aaa . (5.14) 
gEG de (00,6% ) 

Die Genauigkeit der Schätzung 6g ~ 6g während des Lernens ist abhängig 
von der aktuellen Qualität der geschätzten Bewertungsfunktion V. Um zu ga- 
rantieren, dass OG oder ein Ziel nahe OG gefunden wird, muss die Wahl der 
durch den Agenten verfolgten Zielstruktur 6 € G während des Lernens variie- 
ren. Wie bei der Bestimmung der auszuführenden Aktion a € A ergibt sich hier 
eine grundlegende Abwägung zwischen der Ausnutzung der aktuellen Bewer- 
tungsfunktion (Exploitation) und der Exploration zur Erlangung neuen Wis- 
sens (siehe 2.2.5). 

Wie bei der Definition der Lernstrategie 7 (siehe 2.2.6) kann auch hier ei- 
ne €-greedy Auswahlstrategie genutzt werden, um sicher zu stellen, dass alle 
Zielstrukturen berücksichtigt werden (Exploration), der Agent sich gleichzei- 
tig aber auch auf vielversprechende Zielstrukturen fokussiert (Exploitation). 6 


wird hierzu zu Beginn jeder Episode neu zugewiesen 


ores , ifx > č, where x ~U/(0, 1), 


+ (5:15) 


O ~Ug „else, 


wobei Ug die Gleichverteilung über die Zielmenge G und U (0,1) die Gleich- 
verteilung im Intervall [0,1] darstellt. Die Explorationsrate der Zielauswahl č 
in Abhängigkeit von der aktuellen Episode e wird dabei, analog zu £, durch 
drei Parameter definiert. Die initiale Explorationsrate čo nähert linear die finale 
Explorationsrate & während der ersten ng an. 

Der gesamte Lösungsansatz für mehrere äquivalente Zielstrukturen ist in Lis- 


ting 9 dargestellt. Zu Beginn jeder Episode wird die verfolgte Zielstruktur 6 
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MEG-SGPPO(n.,G, ën, &,nz, DON parameters) 
1 D0 
2 fore =l1ton,. 


3 č max (5 -2(&- ži) 

4 č + Eq. (5.15) 

5 Ee + execute multi-goal DON wrt. & for one episode 

6 for g € G 

7 ed 1| Jann Ron (č) ) (s:.41.8-41,R) € el: 


where R, wrt. g is given by (5.9) 
8 DEDUER 


Listing 9. Multi-equivalent-Goal Structure-guided Processing Path Optimiza- 
tion (MEG-SGPPO). 


festgelegt (Zeilen 3 und 4). Zugunsten einer übersichtlichen Darstellung fassen 
wir die Ausführung des angepassten DQN Algorithmus pro Episode in einer 
Zeile zusammen (Zeile 5). Der angepasste DQN Algorithmus entspricht dabei 
DON wie es in 2.2.7 vorgestellt wurde in Kombination mit Funktionsappro- 
ximationsmodellen die, wie oben beschrieben, über Zieltexturbeschreibungen 
n (5 d generalisieren. AuBerdem werden Erfahrungs-Tupel durch den ange- 
passten DQN Algorithmus nicht direkt in das Replay Memory D tibernommen, 
sondern pro Episode als separate Menge Ee zur weiteren Verarbeitung (Zeilen 
6 und 7) zwischengespeichert. 

In Anlehnung an den Hindsight Experience Replay Ansatz [47] werden zu- 
sätzlich zu den tatsächlich gemachten Erfahrungen hypothetische Erfahrungs- 
Tupel EN ( Séi) fiir alle Zielstrukturen G'S) aus G dem Replay 
Memory D hinzugefiigt. Bei der Berechnung der hypothetischen Belohnung R, 
wird davon ausgegangen, dass die jeweilige Zielstruktur als he G, die während 
der Episode verfolgte Zielstruktur ist (Zeile 8). Dabei wird davon ausgegangen, 
dass diese Augmentierung der Trainingsdaten die Dateneffizienz des Algorith- 


mus weiter erhöht. 
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5.3 Prozessinstantiierung 


Zur Untersuchung und Evaluation der vorgestellten Methoden wurden Expe- 
rimente mit einem simulierten verallgemeinerten Metallverarbeitungsprozess 
durchgefiihrt. Strukturen o liegen hierbei in Form der kristallographischen 
Textur vor. In 5.3.1 wird die verwendete Prozesssimulation erläutert. In 5.3.2 
wird ausgehend davon der Aktionsraum A sowie der Zustandsraum S des Mar- 
kov-Entscheidungsprozesses spezifiziert. Grundlage der Belohnungsfunktion 
ist eine Distanzfunktion dg im Raum der Strukturen und eine Strukturbeschrei- 
bung n(o). Beides wird in 5.3.3 für den vorliegenden Fall kristallographischer 
Texturen erläutert. Anschließend werden in 5.3.4 Details zur Implementierung 
erläutert und in 5.3.5 die zur Evaluation verwendeten Parameter und Hyperpa- 


rameter der Algorithmen spezifiziert. 


5.3.1 Deformationsprozess 


Die Prozesssimulation basiert auf dem in [8] vorgestellten mean-field Mate- 
rialmodell. Dieses wurde erstellt nach der Beschreibung von [101] auf Basis 
der Taylor-Annahme [102]. Ein Prozesspfad besteht aus bis zu X aufeinander- 
folgenden Prozessschritten mit einachsiger Belastung in Form von Zug oder 
Kompression des Materials in eine beliebige Richtung. In jedem Schritt wird 


eine Deformation in Form des Deformationsgradienten F 


Fy, 0 0 
F=|0 m 0). (5.16) 
0 0 F3 


in einer durch die Rotationsmatrix R definierten Orientierung aufgebracht. Die 
resultierende Deformation F in Relation zu dem Referenzkoordinatensystem 


des Materialmodells ist folglich definiert als 
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F = RFR’. (5.17) 


Zu optimierende Variablen sind Fıı und R. Fy und F33 werden innerhalb der 
Simulation iterativ angepasst, bis die Spannungen im Gleichgewicht sind. Um 
unrealistisch hohe Deformationen zu vermeiden, wird die Prozessausfiihrung 
nach der Uberschreitung einer maximalen Vergleichsdehnung von 70% abge- 
brochen und der Prozesspfad beendet. 

In Abhängigkeit der sich einstellenden kristallographischen Textur können Ma- 
terialeigenschaften berechnet werden. Als exemplarische, mit geringem Auf- 
wand zu berechnende Materialeigenschaften betrachten wir zur Untersuchung 
der vorgestellten Methoden die Elastizitätsmoduli E; in ii-Richtung bezüglich 
des Referenzkoordinatensystems für i € 1,2,3. Das Materialmodell wurde für 
die Untersuchungen an DC04 Stahl kalibriert [8]. 


5.3.2 Entscheidungsprozess 


Die Prozessaktion a; in Zeitschritt t des zugehörigen Entscheidungsprozes- 
ses setzt sich zusammen aus der Ausprägung der uniaxialen Deformation f, € 
[—1, 1] und der Orientierung der Deformation q; € R4, ||q. ||, = 1. Die Ausprä- 
gung der Deformation f; entspricht Ev im Zeitschritt t. Die durch das Einheits- 
quaternion q; beschriebene Orientierung entspricht der durch R in 5.17 vorge- 
gebenen Orientierung der Deformation. Da die vorgeschlagenen Lösungsme- 
thoden einen diskreten Aktionsraum voraussetzen, ist eine Diskretisierung der 
Teilaktionen f; und q; notwendig. Zur Untersuchung der Lösungsmethoden 
werden die Teilaktionen deshalb folgendermaßen definiert: f € {0.02,—0,02} 
und q, als Element einer Menge B100, bestehend aus 100 Einheitsquaternionen, 


die annähernd gleichmäßig verteilt den gesamten Orientierungsraum abdecken. 
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Darüber hinaus umfasst der Aktionsraum eine neutrale Aktion, die F4; = 0 ent- 
spricht und durch den Agenten genutzt werden kann, wenn keine weitere Ver- 
besserung beziiglich der Distanz zur Zieltextur wahrend der Episode erwartet 
wird. A besteht folglich aus insgesamt |A| = 2 x |Bjo9| + 1 = 201 Aktionen. 

Zustandsbeschreibungen s des Entscheidungsprozesses bestehen aus Beschrei- 
bungen der durch den Prozess erreichbaren Material-Strukturen und zusätz- 
lichen Prozessgrößen. Wie beschrieben wird die Material-Struktur o in dem 
Anwendungsfall durch die zugehörige Orientierungsdichteverteilungsfunktion 
(engl. Orientation Distribution Function, ODF, siehe Anhang A.0.1) repräsen- 
tiert. Neben der im nächsten Unterabschnitt beschriebenen numerischen Be- 
schreibung der ODF enthält s zusätzliche Prozessgrößen in Form des aktuellen 


Zeitschritts ¢ und der aktuellen Vergleichsdehnung. 


5.3.3 Mikrostruktur-Repräsentation und -Distanz 


Zur Beschreibung n(o) der Textur o werden Koeffizienten der symmetri- 
sierten generalized Spherical Harmonics (GSH, siehe Anhang A.0.1) g2 ge- 
nutzt. GSH Koeffizienten stellen eine kompakte Beschreibung von Texturen 
dar und werden deshalb häufig zur Beschreibung von Texturen im Kontext 
des maschinellen Lernens verwendet [83-85]. Die Reihe wird an dem Grad 
L = 8 abgeschnitten, sodass die Struktur des angenommenen Materials mit 
kubischer Kristallsymmetrie durch 21 komplexwertige GSH-Koeffizienten be- 
schrieben wird. Die komplexwertigen Koeffizienten werden zur Verwendung 
als Zustandsbeschreibung in ihre Real- und Imaginärteile zerlegt, und zusam- 
men mit den beiden zusätzlichen Prozessgrößen durch einen reellen Zustands- 
vektor s € R“ repräsentiert. 

Die Anwendung der oben vorgestellten Methoden des bestärkenden Lernens 
setzen außerdem eine Distanzfunktion dg im Strukturraum voraus. In der Lite- 
ratur konnte keine überzeugende Methode zur Distanzberechnung auf Basis der 


GSH Koeffizienten gefunden werden. Zur Berechnung von Distanzen im Raum 
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der Texturen wurden im Rahmen dieser Arbeit deshalb eine Methode zur dis- 
kretisierten Darstellung der ODF und die Anwendung einer Histogramm-Di- 
stanzfunktion zur Ermittlung der ODF-Distanz vorgeschlagen und untersucht. 
Hierzu wird die ODF in SO(3) diskretisiert und als normiertes Histogramm der 
Orientierungen dargestellt. Diese Abbildung ist nicht Topologie erhaltend und 
weist die Belegung der Histogramm-Klassen einem Vektor hg € R’ zu, der im 
Folgenden als Orientierungshistogramm bezeichnet wird. 

In Abhängigkeit des vorliegenden Kristallsystems Q existieren äquivalente 
Orientierungen in SO(3) und die ODF kann durch Auflösung dieser Aquiva- 
lenzen in einer von Q abhängigen Fundamentalregion beschrieben werden. 
Zur Diskretisierung der ODF wird eine Menge BÊ, bestehend aus J Basisori- 
entierungen b; € Br genutzt, für die angenommen wird, dass sie gleichverteilt 
in der Fundamentalregion bzgl. Q vorliegen. Des Weiteren wird eine Distanz- 
metrik @ ` SO(3) x SOU) — Rj vorausgesetzt. Auf dieser Basis kann eine 
Orientierung A € SO(3) der nächsten Basisorientierung b; zugewiesen wer- 
den. 

für eine einzelne Kristallorientierung À ist die Lie Komponente des binären 


Zuweisungsvektors wy definiert als 


1 ,ifbj= arg min, 30 [Ga (P, A) 


w= (5.18) 


U „else, 


wobei do ` SO(3) x SO(3) — Rj die minimale Distanz aller äquivalenten Ori- 


entierungen bezüglich Q darstellt 


go(b,A)= min 6(b,A). (5.19) 
(bA)EWo(b)xYa(A) 


Die Funktion Yo(A) bildet dabei auf die Menge aller äquivalenten Orientie- 
rungen von A bezüglich Q ab. Jeder Basisorientierung b; € B? ist eine Voronoi- 


Zelle in SO(3) bezüglich da zugeordnet und der Orientierungsraum SO(3) ist 
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durch die Gesamtheit der Voronoi-Zellen partitioniert. Als Orientierungshisto- 
gramm wird hier ein Vektor der relativen Häufigkeiten der Orientierungen einer 
ODF in den J Voronoi-Zellen bezeichnet. 

Für eine repräsentative Stichprobe A von Orientierungen A der kristallographi- 
schen Textur ø, die zugehörigen Volumen V(A) und das totale Volumen der 
Stichprobe V stellt der Vektor 


ho = > A. V(A)-wa. (5.20) 


Das Orientierungshistogramm der Textur o dar. 
Für die kristallographischen Texturen o, und oy ist dann die Distanz dg de- 
finiert durch das X”-Distanzmaß, angewendet auf die zugehörigen Orientie- 


rungshistogramme hg, und hg,: 


J (he ;—ho, ;)? 
x hoho) A (hos, j = ho, j)" 


. 5.21 
5 (hoa j thoj) Geen 


Insbesondere bei scharfen Texturen ist eine Glättung der Distanzfunktion vor- 
teilhaft. Hierzu wird eine generalisierte Form der Zuweisung aus (5.18) ge- 
nutzt. Die i-te Komponente des geglätteten Zuweisungsvektors Wy ist definiert 


als ba(bi,A) 
Qi, ` 
Ze ,ifbEN 
e, 4 Enjen $2(b;,A) (5.22) 


0 , else, 


wobei N = NN;(B%, A, ġo) die Menge der k nächsten Nachbarn von A aus der 
Menge BY bezüglich des Distanzmaßes do ist. 


Als Basisdistanz dient 


3 


60,29) = min (qa) am 


Aa] Y) (6.23) 
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wobei qg(A) = q auf die Darstellung der Orientierung A als Einheitsquaternion 
q € R4, ||q\|, = 1 abbildet. Die Basisdistanz @ ist eine Metrik in SO(3) [103]. 
Um eine Menge approximativ gleichverteilter Basisorientierungen Br Zu er- 
zeugen, wird der Optimierungsansatz von Quey et al. [104] genutzt. Die nächs- 
te-Nachbar Suche zur Lösung von (5.18) und (5.22) kann durch Suche in einer 
k-d Baum Struktur [105] effizient durchgeführt werden. 

Zusammenfassend wird die Distanz zweier Texturen ermittelt, indem die Ori- 
entierungsdichten durch Orientierungshistogramme repräsentiert werden und 
die Histogramm-Distanzfunktion X” auf diese angewandt wird. Bei der Erstel- 
lung der normierten Histogramme sind zwei Parameter von Bedeutung, die 
Einfluss auf die Genauigkeit der Repräsentation sowie die resultierende Di- 
stanzfunktion haben: Die Anzahl der verwendeten Basisorientierungen J und 
der Glättungsparameter k. 

Die Anzahl der Voronoi-Zellen J für die das Orientierungshistogramm gebil- 
det wird beeinflusst den Diskretisierungsfehler der Histogramm-Darstellung. 
Je kleiner J ist, desto größer sind die Distanzen bei der Zuweisung der Voronoi- 
Zellen in (5.18). Gleichzeitig führen hoch gewählte Kardinalitäten J dazu, dass 
das resultierende Orientierungshistogramm zunehmend dünn besetzt ist, was 
zu Schwierigkeiten bei der Distanzermittlung mittels x? (5.21) führen kann, 
da diese auf dem Vergleich der Belegung der Voronoi-Zellen ho j beruht. Des 
Weiteren hängen die rechnerischen Kosten bei der nächste-Nachbar Suche von 
J ab?. 


3 Bei der Verwendung von k-d Bäumen betragen die mittleren Kosten für die Suche nach einem 
nächsten Nachbar bei J zufällig verteilten Punkten O(log J) [105] 
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= — J=256,k=1 
T --- J=256,k=3 
s J=256,k=25 
— J=512k=1 
--- J=512,k=3 
u J=512,k=25 
— J=8192k=1 
--- J=8192,k=3 
«== J=8192,k=25 


do, or)/d,(00, Or) 


15 20 25 30 
Zeitschritt t 


Abbildung 5.5: Experimentelle Untersuchung der eingeführten Distanz für unterschiedlich pa- 
rametrisierte Orientierungshistogramme. Untersucht wird die Auswirkung ver- 
schiedener Kombinationen der Parameter J und k auf den Verlauf der Distanz von 
Strukturen o, in Zeitschritt t Zur Struktur im letzten Zeitschritt O7 für einen Pfad 
des eingeführten Prozesses. 


Die in (5.20) eingeführte Abbildung der ODF auf ein Orientierungshistogramm 
h ist nicht Topologie erhaltend. Hierdurch kann es vorkommen, dass für ähn- 
liche ODFs eine hohe x?-Distanz ermittelt wird. Bei der kontinuierlichen Ver- 
änderung einer Textur, beispielsweise durch Einwirkung des oben beschriebe- 
nen Deformationsprozesses, entstehen außerdem Unstetigkeitsstellen im Ver- 
lauf der Distanz zu einer zweiten Textur. Beide Effekte lassen sich verdeutli- 
chen, indem man den Extremfall zweier Texturen o und 0) betrachtet, de- 
ren Kristalle jeweils gleichgerichtet sind, wobei alle Kristalle der Textur 0 
die Orientierung A und alle Kristalle der Textur o) die Orientierung A ®) 
aufweisen. Ungeachtet der Distanz der Orientierungen @(A“ ,4)) ist in die- 
sem konstruierten Fall die vorgeschlagene Mikrostrukturdistanz bei Verwen- 
dung der binären Zuweisung aus (5.18) maximal (do(o™, co) = 2), solange 


A und A) nicht derselben Voronoi-Zelle zugewiesen sind und schlagartig 


123 


5 Struktur-geleitete Optimierung von Fertigungsprozessen 


minimal (dg (6,6) = 0) sobald beide Orientierungen in dieselbe Voronoi- 
Zelle fallen. Eine Möglichkeit diesen Problemen auf rechnerisch effiziente Art 
vorzubeugen, ist die in (5.22) vorgeschlagene geglättete Zuweisung. Der Grad 
der Glättung hängt dabei von dem Parameter k ab. 

Um den Effekt der Parameter J und k auf das Verhalten des vorgeschlage- 
nen Distanzmaßes experimentell zu untersuchen, wurde durch den simulierten 
Deformationsprozess eine Reihe von T = 30 aufeinanderfolgenden Deforma- 
tionsschritten mit gleichbleibender Ausprägung f = 0.02 und gleichbleibender 
Deformationsrichtung q = [1,0,0,0]T, auf eine graue Textur aufgebracht. Der 
Verlauf der Distanz die. Or) der Textur zum Zeitschritt £ zur durch die Ge- 
samtdeformation erreichten Textur Or für verschiedene (J,k)-Kombinationen 
ist in Abbildung 5.5 dargestellt. Der Wertebereich der Distanzwerte innerhalb 
des Texturverlaufes hängt stark von den Parametern, insbesondere von J, ab. Da 
bei der Verwendung im Kontext der Belohnungsfunktion relative Distanzwer- 
te entscheidend sind, wurden für die Visualisierung die Wertebereiche durch 
die Division durch die initiale Distanz de (on, Or) vereinheitlicht. Durch die 
gleichbleibende Deformation bei dem exemplarischen Prozesspfad nähern sich 
die Texturen während der Prozessausführung konstant or und ein bezüglich t 
monoton absteigender Verlauf der Distanzen d(0,,07) wird erwartet. Für k = 1 
(durchgängige Linien) ist der Distanzverlauf nicht strikt monoton und ein kla- 
rer Glättungseffekt, in Abhängigkeit des Parameters k, kann beobachtet wer- 
den. Die Texturen bewegen sich in dem Fall nah an der initialen grauen Textur, 
wodurch die oben beschriebenen Effekte nicht stark ins Gewicht fallen. 

Ein Diskretisierungsfehler durch die Darstellung von Texturen als Orientie- 
rungshistogramm in Abhängigkeit von J und k kann indirekt quantifiziert wer- 
den, indem die Abweichungen der berechneten Materialeigenschaften vor und 
nach der Diskretisierung der Textur herangezogen werden. In Tabelle 5.1 sind 
die mittleren absoluten Abweichungen der Elastizitätsmoduli (E11, £22, £33) in 
MPa, berechnet für unterschiedliche kristallographische Texturen dargestellt. 
Die hierbei verwendeten 1000 Texturen wurden zufällig aus einer Menge durch 


den Prozess erreichbarer Texturen gezogen. 
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Tabelle 5.1: Mittlere absolute Abweichung der errechneten Elastizitätsmoduli (E11 , E22, E33) für 
1000 Texturen und zugehörigen Orientierungshistogrammen in Abhängigkeit der 
Parameter J,k (in GPa) 


1 3 25 

256 | 0.574 | 0.238 | 0.401 
J | 512 | 0.493 | 0.201 | 0.275 
8192 | 0.196 | 0.077 | 0.057 


Bei den Ergebnissen ist ein klarer positiver Effekt der Erhöhung der Anzahl 
der gewählten Basisorientierungen J zu sehen. Auch die Glättung wirkt sich 
bis zu einem gewissen Grad k positiv auf die Ergebnisse aus. Die Wahl der 
Parameter J und k folgt einer Abwägung der hier vorgestellten Resultate, den 
oben angestellten theoretischen Überlegungen und dem negativen Einfluss von 
J bezüglich des Laufzeitverhaltens bei der Distanzberechnung. Die Parameter 
die für die im Folgenden vorgestellten Experimente gewählt wurden sind (J = 
512,k=3). 


5.3.4 Implementierung 


Die in 4.3.5 beschriebene Experimentalumgebung wurde für die im Folgen- 
den vorgestellten Untersuchungen ausgeprägt. Daneben wurden insbesondere 
die folgenden Softwarepakete genutzt: Die Implementierungen der Basisalgo- 
rithmen des bestärkenden Lernens (Deep Q Networks sowie die Erweiterun- 
gen Prioritized Experience Replay, Double O-Learning, Dueling O-Learning) 
stammen aus der Algorithmen-Sammlung stable baselines [106]. Bei der Be- 
rechnung der Orientierungshistogramme wird die SciPy [107] Implementie- 


rung des k-d tree Algorithmus verwendet. Das Softwarepaket Neper [108] wird 
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verwendet, um die annähernd gleichmäßig verteilten Orientierungen nach dem 
Optimierungsansatz aus [104] zu generieren. Polfiguren in den Abbildungen 
aus Abschnitt 5.4 wurden mithilfe des MTEX Frameworks erstellt [109]. 


5.3.5 Versuchsaufbau, Netzarchitekturen und 
Parameter 


Zur Untersuchung und Evaluation der vorgestellten Methoden werden in auf- 
einanderfolgenden Episoden Pfade des in Abschnitt 5.3 vorgestellten Prozes- 
ses ausgeführt. Als maximale Pfadlänge pro Episode wurde dabei T = 100 
festgelegt. Jeder Prozesspfad startet mit einer annähernd gleichmäßig ver- 
teilten ODF (im Folgenden als graue Textur bezeichnet), repräsentiert durch 
250 gleichgewichteten Kristallorientierungen, die annähernd gleichmäßig ver- 
teilt in der Fundamentalregion bezüglich der kubischen Kristallsymmetrie des 
DC04 Stahls liegen. 

Die Experimente zur Untersuchung der Struktur-geleiteten Optimierung mit 
einzelnen Zieltexturen bestehen aus Optimierungsläufen mit jeweils 98 auf- 
einanderfolgenden Prozessepisoden. Sofern bei der Vorstellung der Ergebnisse 
nicht anders angegeben, wurden sie mit den folgenden Parametern SG-SGPPO 
Algorithmus, Hyperparametern der künstlichen Neuronalen Netze und Einstel- 


lungen durchgeführt: 


e Die Orientierungshistogramme zur Berechnung der 7?-Distanz werden 


mit den Parametern J =512, k = 3 erzeugt. 
e Der Entscheidungsprozess ist nicht diskontiert, y = 1. 


e Als Basisalgorithmus dient DON mit den Erweiterungen Prioritized Ex- 


perience Replay, Double O-Learning, Dueling O-Learning. 


e Das Update der Parameter 9” findet alle ng = 250 Zeitschritte statt. 
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Prioritized Experience Replay wird mit den Parametern Oper = 0.6, Bo = 
0.4 angewandt. 


Die Lernstrategie 7 ist €-greedy, die initiale Explorationsrate beträgt 
& = 0.5, die finale Explorationsrate ze = 0.1, ne = 50. 


Die verwendeten kiinstlichen Neuronalen Netze sind feedforward Netze 
mit drei versteckten Schichten, ReLU Aktivierungsfunktionen und layer 
normalization [110]. Von der auf die Eingabeschicht ausgehend beträgt 
die Breite der versteckten Schichten (128,64,32). 


Das Training der Netze beginnt nach den ersten 100 Zeitschritten. Netze 


werden mit mini-Batches bestehend aus 32 Samples trainiert. 


Als Optimierungsalgorithmus wird ADAM mit einer Lernrate von Ze" 


verwendet. 


Die Experimente zur Untersuchung der Struktur-geleiteten Optimierung mit ei- 


ner Menge äquivalenter Zieltexturen unterscheidet sich in folgenden Punk- 


ten: 


Ein Optimierungslauf besteht jeweils aus ne = 200 aufeinanderfolgenden 


Episoden. 


Die feedforward Netze bestehen aus 4 versteckten Schichten der Breite 
(128,256,256,128), aufgrund der höheren Komplexität der Abbildung 


durch die Generalisierung über Zieltexturen. 
Pro Zeitschritt wird mit vier mini-Batches trainiert. 


Für eine verbesserte Stabilität des Lernvorgangs findet das Update der 
Parameter 0” alle ng = 500 Zeitschritte statt. 


Parameter der e-greedy Lernstrategie 7 sind €& = 0.5, & = Une = 190. 


Die €g-greedy Auswahl der Zielstruktur pro Episode findet mit folgen- 
den Parametern statt: čo = 1, ër = 0, ng = 190. 
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Die Experimente zur Untersuchung der Ansätze wurden auf Workstations mit 
jeweils 20 2.2 GHz CPU-Kernen und einer GTX 1080 Ti GPU durchgefiihrt. 
Während Berechnungen des Simulationsframeworks auf der CPU stattfinden, 
findet die GPU Anwendung bei dem Training der kiinstlichen Neuronalen Net- 


Ze. 


5.4 Ergebnisse 


Die hier vorgestellten Evaluationsergebnisse wurden experimentell, auf Basis 
der in Abschnitt 5.3 dargestellten Prozess-Instanziierung, erzeugt. Dieser Ab- 
schnitt ist zwei-geteilt. In dem Unterabschnitt 5.4.1 werden Evaluationsergeb- 
nisse fiir den in 5.2.1 vorgestellten SG-SGPPO Algorithmus zur Optimierung 
mit einzelnen Zielstrukturen vorgestellt. Unterabschnitt 5.4.2 behandelt Ergeb- 
nisse der Evaluation des in 5.2.2 vorgestellten MEG-SGPPO Algorithmus zur 


Optimierung mit mehreren äquivalenten Zielstrukturen. 


5.4.1 Einzelne Zielmikrostrukturen 


Der in 5.2.1 vorgestellte SG-SGPPO Ansatz zur Optimierung des Prozesspfa- 
des zur Erreichung einzelner Material-Strukturen wurde für sechs unterschied- 
liche zufällig ausgewählte Zieltexturen T = {6 ell. 62,69) eil ez 


evaluiert. Diese erfüllen folgende Kriterien: 


1. do(6,6) > 1.2 für alle 6,6” €T zur Sicherstellung der Diver- 


sität. 


2. einem Mindestabstand minger (do(6, °0)) > 0.75, wobei on die Aus- 


gangstextur, in diesem Fall die graue Textur, darstellt. 
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Abbildung 5.6: Zieltexturen aus I’, jeweils dargestellt durch die (001)-,(011)-,(111)-Polfiguren. 


Die Polfiguren der sechs Zieltexturen sind in Abbildung 5.6 dargestellt. Textu- 
ren werden in dieser Arbeit als Polfiguren der Miller-Indizes (100), (110), (111) 
dargestellt. 

Die zugehörigen, der Beschreibung in 5.3.1 folgend berechneten Elastizitäts- 
moduli sind in Tabelle 5.2 angeführt. 


Tabelle 5.2: Elastizitätsmoduli der Texturen aus I (in GPa) 


Goal | Ey; | En | E33 


Ge) | 221 | 223 | 221 
čl) | 216 | 221 | 212 
č) | 223 | 219 | 214 
oe) | 222 | 218 | 223 
ol | 224 | 218 | 219 
6°) | 227 | 226 | 233 
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Episode e 


Abbildung 5.7: Distanz der jeweils nächsten erreichten Textur 6, zur Zieltextur &'%) € T pro 
Episode e. Dargestellt ist jeweils der Mittelwert und das 95% Konfidenzintervall 
für 5 unabhängige Optimierungsläufe. 


Der Optimierungs-Algorithmus wurde für jede Textur aus I’ separat ange- 
wandt. Aufgrund der stochastischen Initialisierung der Netzparameter und der 
stochastischen Wahl der Aktionen bei Anwendung der Lernstrategie 7 variie- 
ren die Ergebnisse des Algorithmus. Deshalb wurden jeweils mehrere unab- 
hängige Optimierungsläufe durchgeführt. 

Ein Prozesspfad besteht aus maximal 7 Prozessschritten. Eine Episode des be- 
stärkenden Lernens endet nach T Prozessschritten oder bereits vorher, falls die 
maximale Vergleichsdehnung erreicht ist. Bei der Evaluation wird davon aus- 
gegangen, dass der optimale Prozesspfad im Vorfeld der finalen Prozessausfüh- 
rung ermittelt wird. Dies impliziert, dass in einer Episode e auch jeder Teilpfad, 
der die initiale Textur on mit einer Textur o € Xe verbindet, ein gültiges Op- 
timierungsergebnis darstellt. Die Menge Xe C X umfasst die während Episode 
e erreichten Texturen. Der beste in Episode e ermittelte Teilpfad verbindet ou 


mit 
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Episode e 


Abbildung 5.8: Distanz der in den bisherigen Episoden besten erreichten Struktur 6 zur Zieltex- 
tur 6(8) € T pro Episode e. Dargestellt ist jeweils der Mittelwert und das 95% 
Konfidenzintervall für 5 unabhängige Optimierungsläufe. 


õe = argmin (do(0,6)). (5.24) 


OCH 


Ziel der Optimierung ist dann die Minimierung der Distanz dg(6.,6). Pro 
Zieltextur in I’ wurden fünf unabhängige Optimierungsläufe, jeweils aus 98 
Episoden bestehend, durchgeführt. In Abbildung 5.7 ist die mittlere Distanz 
do(6.,6) in Abhängigkeit der Episode e und das zugehörige 95% Konfidenz- 
intervall (ermittelt aus den Werten der fünf Optimierungsläufe) pro Zieltextur 
dargestellt. 

Bei der Optimierung im Vorfeld der finalen Prozessausführung ist insbesondere 
die Qualität des Optimierungsergebnisses in Abhängigkeit von dem Optimie- 
rungsaufwand ausschlaggebend. Es genügt daher die Betrachtung des bis zu 
einer Episode gefundenen besten Ergebnisses aller bisherigen Episoden. Des- 
halb wird im Folgenden ein weiterer Aggregationsschritt angewandt, indem für 


Episode e die Distanz des bisher besten Ergebnisses betrachtet wird. Der nach 
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Episode e beste in den bisherigen Episoden gefundene Prozesspfad verbindet 
Oo mit 

6. = argmin |do | argmin (do(0,8)),6] |. (5.25) 

ie[0,e] ver; 

Die zugehörige Distanz dg(6-,6) ist in Abbildung 5.8 in Abhängigkeit der 
Episode e als Mittelwert und 95% Konfidenzintervall für die unabhängigen 
Optimierungsläufe pro Zieltextur 6 € I dargestellt. 
Die ermittelten Distanzen der besten Optimierungsergebnisse ds (ëng, ©) pro 


6 €T für die unabhängigen Optimierungsläufe liegen in den Intervallen: 


© [0.2330,0.2591] für č = 60), 
e [0.2010,0.2689] für č = 6), 
e [0.2354,0.3040] für č = 6), 
© [0.1165,0.1809] für č = 6°), 
e [0.2656,0.3283] für č = 69), 
e (0.1109, 0.1327] fir 6 = 6°). 


Qualitative Ergebnisse in Form von Polfiguren der Ergebnis-Texturen zu ver- 
schiedenen Zeitpunkten der Optimierung sind in 5.9 dargestellt. Die dargestell- 
ten Ergebnisse stammen aus einem der fünf unabhängigen Optimierungsläufe 
mit der Zieltextur 6), Abbildung 5.9 stellt für den untersuchten Optimie- 
rungslauf die Distanz ds (6., 60) im Verlauf der Episoden e dar. Zusätzlich 
sind Texturen 6, für einzelne Episoden e € {0,4,10,21,40,97}, sowie die Ziel- 
textur 6(0) in Form von Polfiguren dargestellt. Anhand dieser qualitativen Dar- 
stellungen kann die Annäherung der Ergebnisse 6, an die Zieltextur 6) über 
den Optimierungsverlauf hinweg nachvollzogen werden. Das beste Ergebnis in 
dem Optimierungslauf wird in Episode 97 erreicht (Gog = 697). In Abbildung 
5.10 ist der Prozesspfad aus Episode 97 visualisiert. Die dargestellten Punkte 


geben dabei pro Zeitschritt t die gewählte Prozessaktion an, wobei die Farbe 
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Episode e 


Abbildung 5.9: Detailansicht eines einzelnen Optimierungslaufs mit der Zielstruktur 6. Kom- 
binierte Darstellung bestehend aus dem Verlauf der Distanz do (ô+, 6) der 
bisher besten erreichten Struktur dg (6. zur Zielstruktur 6 (0) und der qualitativen 
Darstellung einzelner erreichter Strukturen 6, und der Zielstruktur 6 in Form 
von (001)-,(011)-,(111)-Polfiguren. 


der Punkte die Art der Deformation f; und die vertikale Lage die Orientierung 
der Deformation q; € 0100 (siehe 5.3.2) entsprechend der linken Koordinaten- 
achse darstellt. Die Distanz dee. 60) in Abhängigkeit von t für Episode 97 
ist als Linienplot durch den Ordinatenwert entsprechend der rechten Koordi- 
naten-Achse dargestellt. Der optimale Teilpfad endet mit der kleinsten Distanz 
zur Zielstruktur innerhalb der Episode zum Zeitschritt t = 46 und ist in Form 
einer gestrichelten vertikalen Linie dargestellt. Nach Zeitschritt t = 66 endet 
Episode 97 da das Abbruch-Kriterium erreicht wird, indem die Vergleichsdeh- 
nung den Maximalwert von 70% überschreitet. 

In Abbildung 5.11 sind weitere qualitative Ergebnisse dargestellt. In der oberen 


Reihe sind die jeweils besten gefundenen Prozesspfade in derselben Form wie 
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Abbildung 5.10: Detailansicht der besten Episode e = 97 des in Abbildung 5.9 dargestellten 
Optimierungslaufs. Prozessaktionen a, sind repräsentiert durch Punkte, deren 
Position auf der y-Achse die Orientierung der Deformation (linke vertikale 
Achsenbeschriftung) und deren Farbe die Art der Deformation f; angibt. Das 
Ende der Episode (hier durch erreichen der maximalen Vergleichsdehnung) 
ist durch eine solide vertikale Linie gekennzeichnet. Der Verlauf der Distanz 
del.) (rechte vertikale Achsenbeschriftung) ist als Linienplot dargestellt. 
Der Zeitschritt der Erreichung von 6 ist durch eine gestrichelte graue vertikale 
Linie gekennzeichnet. 


in Abbildung 5.10 für alle Zieltexturen aus I’ dargestellt. Darunter befinden 


sich pro Zieltextur drei Zeilen mit Polfiguren: 
e Obere Zeile: Polfiguren der Zieltextur 6) füri c {0,1,2,3,4,5}. 


e Mittlere Zeile: Polfiguren der Textur die durch den über alle Optimie- 
rungsläufe hinweg besten ermittelten Prozesspfad erreicht wird pro Ziel- 
textur 6). 


e Untere Zeile: Polfiguren der Textur die durch den im schlechtesten Op- 


timierungslauf ermittelten Prozesspfad erreicht wird pro Zieltextur 5), 


134 


5.4 Ergebnisse 


52 . 


ipo ME 


oe A mm loeo 
C a jesse 
KI 


| 


L SE De 


Abbildung 5.11: Ergebnisse pro Zielstruktur aus I. Jeweils Zeilenweise: (1) Detailansicht der 
besten Episode eines Optimierungslaufes. Achsenparameter und Labels entspre- 
chen Abbildung 5.10. (2) Polfiguren der Zielstruktur. (3) Polfiguren der besten 
erreichten Struktur Gog des besten Optimierungslaufs. (4) Polfiguren der im 
schlechtesten Optimierungslauf erreichten Struktur Gog. 
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Abbildung 5.12: Ergebnisse der Ablationsstudie fiir einzelne Zielstrukturen. Pro Variante des 
Algorithmus ist der Verlauf der Distanz dg (6,6()) in Form des Mittelwer- 
tes und des 95% Konfidenzintervalls für fünf unabhängige Optimierungsläufe 
dargestellt. 


Um den Einfluss einzelner methodischer Komponenten zu untersuchen wurde 
eine Ablationsstudie durchgeführt. Dabei wird die Performanz der Gesamtme- 
thode mit der Performanz verglichen, die ohne das vorhandensein einzelner 
methodischer Komponenten erzielt wird. Relevante methodische Komponen- 
ten für den Fall mit nur einer Zieltextur sind zum einen die DQN Erweite- 
rungen (Prioritized Experience Replay, Double O-Learning, Dueling O-Lear- 
ning) und zum anderen die Umformung der Belohnungsfunktion. Ergebnisse 
der Ablationsstudie sind in Abbildung 5.12 dargestellt. Für jede Ausprägung 
basieren die dargestellten Ergebnisse auf fünf unabhängigen Optimierungsläu- 
fen mit der Zieltextur 6), Ergebnisse sind in Form des Mittelwerts und des 
95% Konfidenzintervalls der bereits oben verwendeten besten bisherigen Ziel- 


distanz dargestellt. 
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5.4.2 Mehrere aquivalente Zielmikrostrukturen 


Bei der im vorangegangenen Unterabschnitt beschriebenen Anwendung des 
SG-SGPPO Algorithmus zur Pfadoptimierung im Fall einer einzelnen Zieltex- 
tur wurde keine zufriedenstellende Lösung für einige der Zieltexturen aus I’ 
gefunden. Insbesondere betrifft dies die Zieltexturen 5%) und ei (vgl. Abbil- 
dungen 5.7 und 5.8). Wie beschrieben ist das eigentliche Ziel bei der Optimie- 
rung der Prozesspfade die Erreichung einer Material-Struktur die gewünschte 
Eigenschaften aufweist und, wie in Kapitel 5.1 beschrieben, existieren häu- 
fig mehrere Material-Strukturen, die bezüglich der gewünschten Materialei- 
genschaften äquivalent sind. Der in 5.2.2 vorgestellte MEG-SGPPO Algorith- 
mus zur Struktur-geleiteten Optimierung mit mehreren äquivalenten Zielstruk- 
turen identifiziert eine gut erreichbare Struktur aus der Menge der äquivalenten 
Strukturen und löst zeitgleich das Prozesspfadoptimierungsproblem. 

Um die Vorteile der erweiterten Methode zu untersuchen, werden zwei Men- 
gen unterschiedlicher Zieltexturen, G4-equiv und G2-equiv, verwendet. Die Menge 
G4-equiv besteht aus 10 Texturen ER die als äquivalent zu der schlecht er- 
reichbaren Textur č“) betrachtet werden. Die Menge Go-equiy besteht aus 10 
Texturen Oe die als äquivalent zu der zweiten schlecht erreichbaren Textur 
(8) 


52) betrachtet werden. Eine Textur 6. 


Sau wird als Aquivalent zu 6 be- 


trachtet, wenn die Elastizitätsmoduli (E11,E22,E33) von 6 und 6%) 


i-equiv um 


maximal 0.5 GPa abweichen. 

Der in 5.2.2 vorgestellte Algorithmus wurde für jeweils ne = 200 Episoden auf 
die Mengen G4-equiv und G2-.equiv angewandt. Die Optimierungsverläufe sind 
in Abbildung 5.13 für die Optimierung mit den Zieltexturen G4equiy und in 
Abbildung 5.14 für die Optimierung mit den Zieltexturen G2-equiy dargestellt. 
Die Punkte zeigen dabei je Episode e die Distanz ds (ö,,6) der aus dem bes- 
ten Teilpfad resultierenden Textur õ zur Zieltextur 6 an. Die Zieltextur 6 
wird, wie in 5.2.2 beschrieben, durch den Agenten zu Beginn jeder Episode 
aus Gyequiv, BZW. aus Grequiy, gewählt. Die Farbe des Punktes repräsentiert 
jeweils die in Episode e als Zieltextur gewählte Textur 5%) € Giequiv: Die 


i-equiv 
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Abbildung 5.13: Verlauf der Optimierung mit mehreren äquivalenten Zielstrukturen G4-equiv- 
Dargestellt ist pro Episode e die ausgewählte Zielstruktur 6 (Farbe der Punkte) 
und die Art der Wahl (Form der Punkte), sowie die Distanz der besten erreichten 
Struktur 6, zur gewählten Zielstruktur (vertikale Lage der Punkte). 
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Abbildung 5.14: Verlauf der Optimierung mit mehreren äquivalenten Zielstrukturen G2-equiv- 


Dargestellt ist pro Episode e die ausgewählte Zielstruktur 6 (Farbe der Punkte) 
und die Art der Wahl (Form der Punkte), sowie die Distanz der besten erreichten 
Struktur õ zur gewählten Zielstruktur (vertikale Lage der Punkte). 
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Form der Punkte repräsentiert jeweils die Art der Entscheidung, wobei eine 
kreuzförmige Markierung für eine greedy gewählte Zieltextur (Exploitation) 
und eine runde Markierung für eine zufällig gewählte Zieltextur (Exploration) 
steht. Eine horizontale, gestrichelte Linie gibt jeweils die Distanz der besten 
Textur an, zu der ein Pfad in den vorangehend beschriebenen Versuchen für 
die jeweilige Zieltextur ermittelt wurde (dg = 0.2656 für 64), dg = 0.2354 
für 6). 

Der Explorationsfaktor der Zielstrukturwahl č beträgt zu Beginn der Optimie- 
rung čo = 1 und nimmt während des Optimierungsverlaufs linear ab, bis er 
ër = erreicht (siehe 5.3.5). Dies spiegelt sich in den Abbildungen wider. 
Während zu Beginn der Optimierung Zieltexturen überwiegend zufällig ge- 
wählt werden, legt der Agent sich im weiteren Verlauf auf eine Textur fest und 
optimiert den Prozesspfad zur Erreichung dieser Textur. 

In der Menge der zu 5) äquivalenten Texturen G4 equiy befindet sich eine Tex- 
tur, Ce aes sehr nah an der grauen Ausgangstextur. Diese wird, wie in den Epi- 
soden mit greedy-Zieltexturwahl ersichtlich, durch den Agenten durchgängig 
und von Beginn an präferiert. Gleichzeitig werden in anderen Episoden auch 


(0) (8) 


zu anderen Zieltexturen aus G4-equiv, namentlich LÉI equiv? A en 


), Prozesspfa- 
de gefunden, die dem besten gefundenen Prozesspfad zu 6“) überlegen sind. 
Im Fall der č -äquivalenten Texturen G2-equiv verfolgt der Agent während der 
anfänglichen 105 Episoden das Ziel einen guten Prozesspfad für Ren zu 
finden. Nachdem in Episode 103 ein überlegener Prozesspfad für Or as ge- 
funden wurde, fluktuiert die greedy-Wahl der Zieltextur zwischen B iy 


x (6) 
SE equiv" 


Ergebnisse als verfolgte Zieltextur durch. 


und 


Nach Episode 144 setzt sich af a aufgrund der nachhaltig besseren 


In beiden Fällen werden durch den Algorithmus für mehrere äquivalente Ziel- 
texturen deutlich bessere Prozesspfade als bei der Optimierung für eine einzel- 
ne Zieltextur gefunden. Im Fall von G4-equiy werden bereits während der ersten 
25 Episoden bessere Ergebnisse geliefert, im Fall Gzequiy während der ersten 
75 Episoden. 
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Abbildung 5.15: Qualitative Ergebnisse des in Abbildung 5.13 dargestellten Optimierungslaufs 
für G4-equiv (linke Seite) und des in Abbildung 5.14 dargestellten Optimierungs- 
laufs für Gz-equiv (rechte Seite). Jeweils: (0,0, 1), (0, 1, 1), (1, 1, 1) Polfiguren der 
zwei Zielstrukturen öh uiv 
wurden und der zugehörigen besten Annäherungen 6,. Daneben jeweils: Eine 


die während der Optimierung am besten angenähert 


Detaildarstellung der Episode e. Achsenparameter und Labels entsprechen dabei 
Abbildung 5.10. 


Für die jeweils zwei am besten erreichten äquivalenten Texturen sind in Abbil- 
dung 5.15 qualitative Ergebnisse in Form von Polfiguren der Zieltextur und der 
nächsten erreichten Textur, sowie Detaildarstellungen der zugehörigen Episode 


dargestellt. Die am besten erreichten äquivalenten Texturen sind im Einzelnen 


x (1) (0) te (3) x (6) 
O74 equiv sowie ÖL equiv und 97 equiv: 


lungen entsprechen im Aufbau und beziiglich der Achsen-Beschriftungen und 


und O14 equiv R 


Die Episoden-Detaildarstel- 


-Skalierungen der Detaildarstellung aus Abbildung 5.10. Die Polfiguren ge- 
ben jeweils einen Eindruck davon, wie gut die Zieltexturen erreicht werden 
konnten. Die Prozessdiagramme spiegeln den Aufbau und die Komplexitat der 
ermittelten Prozesspfade wieder. 

Der Einfluss der in 5.2.2 vorgestellten Augmentierung der Trainingsdaten wur- 
de in einer Ablationsstudie untersucht. Jeweils fünf unabhängige Optimie- 
rungsläufe mit der Zieltextur-Menge G2.equiy wurden mit aktiver Augmentie- 


rung und ohne Augmentierung durchgeführt. Ergebnisse der Studie sind in 
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Abbildung 5.16: Ergebnisse der Ablationsstudie für mehrere äquivalente Zielstrukturen. Pro 
Variante des Algorithmus ist der Verlauf der Distanz ds (6,6) in Form des 
Mittelwertes und des 95% Konfidenzintervalls für fünf unabhängige Optimie- 


rungsläufe dargestellt. 


Abbildung 5.16 dargestellt. Wie schon bei der Evaluierung der Methode für 
einzelne Zieltexturen wurde als Qualitätsmaß die Distanz der besten bisheri- 
gen Lösung in Abhängigkeit von e herangezogen und jeweils der Mittelwert 
und das 95%-Konfidenzintervall dargestellt. Der Abbildung 5.16 folgend hat 
die Augmentierung einen positiven Einfluss auf die Konvergenzgeschwindig- 
keit des Algorithmus. 


5.5 Diskussion der Ergebnisse 


Im Folgenden werden die in 5.4.1 vorgestellten Ergebnisse zur Struktur-gelei- 


teten Prozesspfadoptimierung für eine einzelne Zielstruktur und die in 5.4.2 
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vorgestellten Ergebnisse fiir die Optimierung mit mehreren äquivalenten Ziel- 
strukturen zusammenfassend bewertet. Eine Diskussion der Algorithmen und 
Ergebnisse im Gesamtkontext der Arbeit findet in Kapitel 6.1 statt. 

In 5.4.1 werden Ergebnisse des SG-SGPPO Algorithmus, angewandt auf den 
in 5.3 eingeführten generellen Deformationsprozess, für verschiedene einzelne 
Zielstrukturen vorgestellt. Anhand der quantitativen Darstellung des Distanz- 
maßes zwischen erreichter Textur und Zieltextur, sowie der qualitativen Dar- 
stellung anhand von Polfiguren der erreichten Texturen fällt auf, dass für ei- 
nige Zieltexturen Prozesspfade gefunden werden können, die sehr nah an die 
Zieltextur führen, während dies bei anderen Zieltexturen nicht der Fall ist. Sol- 
che Zieltexturen, für die SG-SGPPO keinen zufriedenstellenden Prozesspfad 
ermitteln kann, sind insbesondere č und eil Da, wie beschrieben, häufig 
mehrere unterschiedliche Strukturen die gewünschten Materialeigenschaften 
aufweisen, bietet sich an, statt einzelner Zielstrukturen eine Menge bezüglich 
der Eigenschaften äquivalenter Zielstrukturen vorzugeben. Zur Untersuchung 
des MEG-SGPPO Algorithmus wurde daher für diese beiden Texturen jeweils 
eine Menge von 10 Texturen ermittelt, die bezüglich der Eigenschaften als 
äquivalent betrachtet werden. Wie in 5.4.2 gezeigt, ist es durch MEG-SGPPO 
möglich, auf dateneffiziente Art gute Prozesspfade für eine oder mehrere dieser 
äquivalenten Texturen zu ermitteln. So werden im Fall der 5®)-äquivalenten 
Texturen bereits während der ersten 25 Episoden bessere Ergebnisse als durch 
SG-SGPPO ermittelt. Im Fall der 5®)-äquivalenten Texturen werden während 
der ersten 75 Episoden bessere Ergebnisse ermittelt. 

Wie die exemplarischen Visualisierungen der Prozesspfade, sowohl für SG- 
SGPPO (Abbildungen 5.8 und 5.11) als auch für MEG-SGPPO (Abbildung 
5.15) zeigen, reichen für einige Zieltexturen einfache Prozesspfade, aus nur 
wenigen unterschiedlichen Aktionen bestehend, aus, um gute Ergebnisse zu 
erzielen, während in anderen Fällen Prozesspfade mit deutlich höherer Variati- 


on der Aktionen ermittelt werden. 
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Durch Ablationsstudien konnte nachgewiesen werden, dass einige zentrale Be- 
standteile der entwickelten Methoden von großer Bedeutung für die Konver- 
genz der Methoden sind. Abbildung 5.12 zeigt fiir SG-SGPPO, dass die Um- 
formung der Belohnungsfunktion einen enormen Einfluss auf das Konvergenz- 
verhalten hat. Ohne Umformung der Belohnungsfunktion (griin dargestellt) ist 
bei den Optimierungsläufen im Verlauf der 98 Episoden nur eine geringfügige 
Verbesserung des Optimierungsergebnisses feststellbar. Dieser positive Effekt 
der Umformung ist darauf zurückzuführen, dass durch die Belohnungssignale 
ungleich null während der Episode die korrekte Identifikation von Aktionen, 
die zu später beobachteten Belohnungssignalen führen und damit das Lernen 
der Strategie deutlich erleichtert wird (siehe 2.3.4). Obwohl dieses Experiment 
nicht für MEG-SGPPO wiederholt wurde, ist zu erwarten, dass die Bedeu- 
tung der Umformung vergleichbar hoch ist, da MEG-SGPPO eine Erweite- 
rung von SG-SGPPO darstellt und darüber hinaus bei MEG-SGPPO auch die 
e-greedy Wahl der Zielstruktur direkt von der Bewertungsfunktion abhängt. 
Abbildung 5.16 folgend ist für MEG-SGPPO ein positiver Einfluss der Aug- 
mentierung durch hypothetische Zieltexturen (siehe 5.2.2) auf die Konvergenz- 
geschwindigkeit und damit auf die Dateneffizienz des Algorithmus erkennbar. 
Die verwendeten DQN Erweiterungen (Prioritized Experience Replay, Double 
O-Learning und Dueling Q-Learning) haben, Abbildung 5.12 folgend, hinge- 
gen keinen bedeutenden Einfluss auf die Konvergenz. Die geringere Breite des 
Konfidenzintervalls bei gleichem Stichprobenumfang (jeweils fünf unabhän- 
gige Optimierungsläufe) deutet jedoch an, dass durch die Erweiterungen eine 


erhöhte Stabilität des Algorithmus erzielt wird. 


144 


6 Übergreifende Diskussion 
und Ausblick 


In dieser Arbeit wurden Methoden des modellfreien, bewertungsbasierten be- 
stärkenden Lernens entwickelt und anhand von Fertigungsprozessen mit end- 
lichem Zeithorizont für die Ermittlung optimaler Regelungsstrategien unter- 
sucht. Dabei wurden zwei grundlegende Problemklassen definiert und spezia- 
lisierte Algorithmen zur Lösung entwickelt. Ergänzend zu der Diskussion der 
Ergebnisse in 4.6 und 5.5, wird im Folgenden der dabei gemachte methodische 
Beitrag und Untersuchungsergebnisse erläutert und diskutiert. Außerdem wer- 
den Anknüpfungspunkte für weitergehende Arbeiten dargestellt. In Abschnitt 
6.2 werden anschließend Möglichkeiten skizziert, um die beiden in der Arbeit 


getrennt behandelten Problemklassen gemeinsam zu behandeln. 


6.1 Methodische Beiträge und 
Untersuchungsergebnisse 


Eine zentrale Eigenschaft der entwickelten und untersuchten Methoden ist, 
dass sie ohne Modell des Prozesses optimale Regelungsstrategien durch In- 
teraktion lernen. Diese Eigenschaft unterscheidet die Methoden wesentlich von 
traditionellen, modellbasierten Methoden der optimalen Regelung, insbesonde- 
re der modellprädiktiven Regelung. Modellfreie Verfahren sind nicht abhängig 
von einem Prozessmodell, das häufig entweder den Prozess zu sehr vereinfacht 


darstellt, oder zu komplex ist, um in Echtzeit während der Prozessausführung 
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verwendet werden zu können. Des Weiteren ermöglichen die modellfreien Ver- 
fahren den Entwurf einer Regelstrategie-Optimierung, ohne über tiefgreifendes 
Expertenwissen bezüglich des spezifischen Prozesses zu verfügen. 

Bei der modellprädiktiven Regelung wird das Prozessmodell bei der Ausfüh- 
rung in jedem Zeitschritt zur Planung der nächsten Regelungsaktionen ver- 
wendet. Dies führt zu der oben angesprochenen Abwägung zwischen Modell- 
genauigkeit und Echtzeitfähigkeit. Im Gegensatz dazu ist bei den entwickelten 
Methoden des bestärkenden Lernens der Aufwand pro Zeitschritt auf die Ab- 
frage des Q-Netzes begrenzt, sodass Echtzeitfähigkeit kein Problem darstellt. 
Das Lernen der Netze geschieht bei den in dieser Arbeit entwickelten Metho- 
den asynchron, durch Experience Replay (siehe 2.2.7) und kann parallel zu der 
optimalen Regelung durchgeführt werden. 

In Kapitel 4 wird ein im Rahmen der Arbeit entwickelter modellfreier, ap- 
proximativer, bewertungsbasierter Algorithmus des bestärkenden Lernens, 
Backward Fixed-Horizon Neural O-Learning (BFHNQ), eingeführt. Dieser 
basiert, wie Approximate Backward Dynamic Programming (ABDP) (Kapitel 
2.2.4), auf Updates Zeitschritt-abhängiger Funktionsapproximationen rück- 
warts in den Zeitschritten. BFHNQ ist ein approximativer Q-Learning Ansatz, 
der durch einen angepassten, inkrementellen Neural Fitted O-Iteration (NFQ) 
Mechanismus (Kapitel 2.2.7) Zeitschritt-abhängige Q-Funktionen in nur einer 
Iteration lernt. Das Prinzip der Zeitschritt-abhängigen Funktionsapproximatio- 
nen wird durch BFHNQ außerdem genutzt, um dem Problem der partiellen 
Beobachtbarkeit des Fertigungsprozesses (2.3.1) mit einer Zeitschritt-abhängi- 
gen Zustandsbeschreibung zu begegnen. 

BFHNQ ist im Ergebnis ein Algorithmus, der wie NFQ in der inkrementellen 
Variante bei jedem Trainings-Vorgang das gesamte Replay Memory zum Trai- 
ning der Q,-Netze nutzt und mit Batch Optimierungsverfahren (Siehe Anhang 
A.0.2) kombinierbar ist. Durch das Training rückwärts in den Zeitschritten ist, 


entgegen NFQ, nur ein einziges Training der Q-Netze notwendig. Das Nutzen 
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des gesamten Datensatzes bei jedem Training führt zu dateneffizientem Ler- 
nen, während der Trainingsaufwand durch das Training rückwärts in den Zeit- 
schritten erheblich gesenkt wird. Wie ABDP ist BFHNQ ein äußerst effizienter 
Algorithmus. Da pro Zeitschritt ein separates Q,-Netz gelernt wird, sind beide 
Algorithmen für Entscheidungsprobleme mit wenigen Zeitschritten entwickelt 
und nicht für den Einsatz bei Entscheidungsproblemen mit weitem Zeithori- 
zont gedacht. Der wesentliche Unterschied von BFHNQ gegenüber ABDP ist, 
dass BFHNQ eine Q-Funktionen lernt und somit für online Anwendungsfälle 
entwickelt wurde, während ABDP unter anderrem ein explizites Zustandsüber- 
gangsmodell nutzt, um Zustands-Bewertungsfunktionen zu lernen und damit 
eher für offline Anwendungsfälle ausgelegt ist. 

Durch das online-Lernen der optimalen Regelungsstrategien, adaptieren die 
entwickelten Verfahren Eigenheiten und Bedingungen des spezifischen Pro- 
zesses. Dies wurde für den Fall des simulierten Tiefziehprozesses in Kapitel 4 
untersucht, wobei davon ausgegangen wurde, dass der Reibungskoeffizient des 
Prozesses variabel und nicht direkt beobachtbar ist und das hypothetische mo- 
dellbasierte Alternativverfahren über ein Prozessmodell verfügt, bei dem von 
einem statischen Reibungskoeffizienten ausgegangen wird. Wie in den Ergeb- 
nissen gezeigt wird (siehe 4.4.1), adaptiert BFHNQ den aktuellen Reibungsko- 
effizienten und übertrifft so die Ergebnisse der hypothetischen modellbasierten 
Alternative. Weitergehende Untersuchungen mit unterschiedlichen Beobacht- 
barkeits-Szenarien zeigen, dass BFHNQ im Szenario ohne beobachtbare Wer- 
te im Erwartungswert zu ähnlichen Ergebnissen führt wie das hypothetische 
Alternativverfahren, das auch unabhängig von den aktuellen Prozessbedingun- 
gen operiert. Daneben konnte für den Anwendungsfall gezeigt werden, dass 
BFHNQ robust bezüglich der verwendeten Q-Learning Parameter (œ, ën) ist, 
was in der Praxis die Instanziierung für neue Prozesse erheblich vereinfacht. 
Von zentraler Bedeutung bei der online-Optimierung von Fertigungs-Prozes- 
sen ist die Dateneffizienz, da eine geringe Dateneffizienz gleichbedeutend mit 


einer erhöhten Ausschussrate ist. Für einen deterministischen Tiefziehprozess 


147 


6 Ubergreifende Diskussion und Ausblick 


mit gleichbleibendem Reibungskoeffizienten wurde auBerdem die Dateneffizi- 
enz von BFHNQ untersucht und mit einem Hill-Climbing Ansatz verglichen. 
Den in 4.4.2 geschilderten Untersuchungsergebnissen folgend ist BFHNQ im 
Vergleich mit dem einfachen Hill-Climbing Ansatz um nahezu eine Größen- 
ordnung Effizienter. Aufgrund der zentralen Bedeutung der Dateneffizienz ist 
dies ein Anknüpfungspunkt für die vergleichende Untersuchung weiterer mo- 
dellfreier Ansätze. 

Eine Möglichkeit, die Dateneffizienz im Fall sich ändernder Rahmenbedingun- 
gen und damit verbundener Vorgaben (Konfigurationen) der Entscheidungsop- 
timierung zu erhöhen, ist die Erweiterung des BFHNQ Algorithmus zu einem 
multikriteriellen Verfahren. Ziel ist der Transfer von gelernten Bewertungs- 
funktionen zwischen Konfigurationen, so dass bei einer Änderung der Rah- 
menbedingungen (und damit verbundenen Optimierungszielen) auf bereits ge- 
lerntes Prozesswissen zurückgegriffen werden kann. Ein erster Ansatz für die- 
se Weiterentwicklung wurde in der Arbeit vorgestellt und anhand des Tiefzieh- 
Optimierungsproblems untersucht. Dabei konnte für den Prozess gezeigt wer- 
den, dass ein Transfer des gelernten Prozesswissens stattfindet und so bei einer 
neu-Definition der Zielstellung bereits ein recht guter Ausgangspunkt für ei- 
ne effiziente Adaption der neu-konfigurierten Belohnungsfunktion gefunden 
wurde. Allerdings hat sich bei der Untersuchung der Weiterentwicklung auch 
herausgestellt, dass BFHNQ ohne die multikriterielle Weiterentwicklung nach 
einigen hundert Episoden zu besseren Ergebnissen führt. Dies ist auf zwei kon- 


krete Punkte zurück zu führen, die bereits in 4.5 benannt wurden: 


1. Die Verteilung der Daten im Replay-Memory widerspricht der Annahme 
des on-policy Updates, dass Aktionen der aktuellen Strategie folgend 


verteilt sind. 


2. Die Anwendung nicht-linearer Skalarisierungsfunktionen f bei den Un- 
tersuchungen widerspricht einer grundlegenden Annahme des multikri- 


teriellen Ansatzes (4.15). 
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Zur Korrektur des ersten Problems können Weighted Importance Sampling 
oder Importance Resampling Methoden [111] verwendet werden, die dazu füh- 
ren, dass die während des Trainings der Netze die Daten so gewichtet bezie- 
hungsweise so verteilt sind, dass sie die aktuelle Strategie besser widerspie- 
geln. Der gängige Weg, das zweite Problem zu vermeiden, ist die Verwendung 
einer linearen Skalarisierungsfunktion. Wie in dem Abschnitt 4.5 allerdings 
gezeigt und erläutert wird, liegen die Pareto-Optima auf einer streckenweise 
linearen Pareto-Front und können so nur durch eine konkave Skalarisierungs- 
funktion ermittelt werden. Eine ideale Lösung wäre deshalb eine Lösung, die 
ohne die Annahme aus (4.15) auskommt und mit der Verwendung nicht-li- 
nearer Skalarisierungsfunktionen vereinbar ist. Eine solche alternative Lösung 
könnte erreicht werden, wenn abweichend zu der in 4.5 vorgestellten Lösung 
anstelle der multikriteriellen vektorwertigen Bewertungsfunktion eine gene- 
ralisierte skalare Bewertungsfunktion Q(s,a,w,0) ~ Q% (s,a) gelernt würde, 
wobei O%,(s,a) die optimale Q-Funktion für das mit w konfigurierte Beloh- 
nungssignal R = f(t,w) darstellt. Diesem Schema folgt der Multi-Objective 
Fitted O-Iteration (MOFQ) Ansatz [112]. Es wurden ausschließlich veröffent- 
lichte Arbeiten gefunden, bei denen MOFQ und davon abgeleitete Ansätze für 
lineare Skalarisierungsfunktionen untersucht wurde. Weitergehende Untersu- 
chungen von MOFQ unter Verwendung konkaver Skalarisierungsfunktionen 
im Kontext einer linearen oder konkaven Pareto-Front sind aufgrund des in 
dieser Arbeit erkennbar gewordenen Bedarfs von hohem Interesse. 

Ein weiteres Anwendungsfeld, das im Rahmen der Arbeit untersucht wird, ist 
die Struktur-geleitete Optimierung von Fertigungsprozessen. Der wesentliche 
Unterschied zu den vorangegangenen Untersuchungen partiell beobachtbarer 
Fertigungsprozesse ist, dass das Ziel der Entscheidungsoptimierung die Errei- 
chung bestimmter Material-Strukturen ist und eine Beschreibung der aktuel- 
len Material-Struktur in jedem Zeitschritt als gegeben angenommen wird. Zu- 
sammen mit Methoden zur Abbildung von Materialeigenschaften auf Materi- 
al-Strukturen (siehe 2.4.4) stellt die Struktur-geleitete Optimierung von Ferti- 


gungsprozessen einen Ansatz zur zielgerichteten Entwicklung von Prozessen 
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zur Herstellung neuer Materialien mit bestimmten Eigenschaften dar. Die Ver- 
wendung von modellfreiem bestärkendem Lernen fiir Struktur-geleitete Opti- 
mierung zeichnet sich gegenüber existierenden Ansätzen (siehe 3) dadurch aus, 
dass online gelernt wird und so die Qualität der Optimierungsergebnisse nicht 
von vorberechneten Datenbanken oder Modellen abhängt. Darüber hinaus sind 
die in dieser Arbeit entwickelten Methoden in der Lage, auch sehr lange Pro- 
zesspfade insbesondere auch stochastischer Fertigungsprozesse zu optimieren. 
Da bezüglich der gewünschten Materialeigenschaften häufig mehrere äquiva- 
lente Material-Strukturen existieren, wurde in dieser Arbeit ein neuartiger Me- 
chanismus des bestärkenden Lernens entwickelt, mit dem auf dateneffiziente 
Art ein optimaler Prozesspfad zur annähernden Erreichung einer der am besten 
zu erreichenden äquivalenten Strukturen ermittelt wird. Ein weiteres Allein- 
stellungsmerkmal der entwickelten Methoden im Kontext der Struktur-gelei- 
teten Optimierung ist, dass sie als Methoden des modellfreien bestärkenden 
Lernens nicht nur zur beschriebenen Ermittlung von Prozesspfaden im Vorfeld 
der Prozessausführung genutzt werden können, sondern direkt in die optima- 
le Regelung des Fertigungsprozesses integriert werden können. Dieser Aspekt 
wird in Abschnitt 6.2 gesondert behandelt. Die dergestalt entwickelten Metho- 
den wurden anhand eines verallgemeinerten Metallverarbeitungsprozess unter- 
sucht. 

Der grundlegende, in dieser Arbeit vorgeschlagene Ansatz zur Struktur-gelei- 
teten Optimierung (SG-SGPPO) verbindet den Deep Q Networks DQN Algo- 
rithmus mit einem für die Problemklasse entwickelten Potential Based Reward 
Shaping Ansatz zur Umformung der Belohnungsfunktion. Durch die Verwen- 
dung von Deep O Networks ist es möglich, auch für sehr lange Prozesspfade 
effizient zu lernen. Die Umformung der Belohnungsfunktion ermöglicht es, 
den Grad der Erreichung der Zielstruktur erst im letzten Zeitschritt, nach der 
Prozessausführung, zu bewerten, aber trotzdem effizientes Lernen zu ermögli- 
chen. Wie in den Ergebnissen einer Ablationsstudie für den verallgemeinerten 
Deformationsprozess gezeigt wurde, ist dies eine wichtige Voraussetzung für 


die schnelle Konvergenz des Algorithmus. 
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Zur Struktur-geleiteten Optimierung mit mehreren äquivalenten Zielstruktu- 
ren wurde ein erweiterter Ansatz entwickelt und vorgestellt: Multi-Equivalent- 
Goal Structure-Guided Processing Path Optimization (MEG-SGPPO). Dieser 
basiert auf dem grundlegenden Single-Goal Ansatz (SG-SGPPO) und erwei- 
tert diesen durch einen Mechanismus zur Priorisierung von Zielmikrostruktu- 
ren anhand der gelernten Q-Funktion und durch einen Mechanismus zur Aug- 
mentierung des Replay Memory. Die Priorisierung ermöglicht es, während der 
Optimierung der Prozesspfade zunehmend den Fokus auf Ziel-Mikrostruktu- 
ren zu legen, fiir die bereits gute Pfade ermittelt wurden. Zu diesem Zweck 
werden Bewertungsfunktionen gelernt, die den in 2.3.3 eingeführten Ansätzen 
folgend über Ziele generalisieren. 

Der SG-SGPPO Algorithmus wurde für unterschiedliche Zielmikrostrukturen 
separat evaluiert. Den Ergebnissen ist zu entnehmen, dass für einige Zielmikro- 
strukturen sehr einfache Prozesspfade identifiziert werden können, während für 
andere hingegen kompliziertere Prozesspfade mit hoher Variation der ausge- 
wählten Aktionen als optimale Lösung gefunden werden. Wie oben beschrie- 
ben, hat die Umformung der Belohnungsfunktion einen sehr hohen Einfluss 
auf die Konvergenzgeschwindigkeit, während die verwendeten DQN-Erweite- 
rungen (Prioritized Experience Replay, Double Q-Learning und Dueling Q- 
Learning) bei dem Anwendungsfall keinen hohen Einfluss auf die Ergebnisse 
haben. Für einige der Zielstrukturen konnte jedoch kein Prozesspfad gefunden 
werden, welcher in deren Nähe führt. 

Zur Untersuchung des MEG-SGPPO Ansatzes wurden für zwei Zielstruktu- 
ren, die durch SG-SGPPO nicht gut erreicht werden konnten, jeweils Mengen 
von 10, bezüglich der Eigenschaften (in diesem Fall der Elastizitätsmoduli) 
äquivalente, Zielstrukturen ermittelt. MEG-SGPPO wurde auf die beiden Men- 
gen separat angewandt. Wie erhofft konnte der Algorithmus in beiden Fällen 
erreichbare äquivalente Zielstrukturen identifizieren und Prozesspfade finden, 


die nahe an die identifizierten Zielstrukturen führen. 
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Zur Durchführung der Untersuchungen wurde eine generalisierte Experimen- 
talumgebung implementiert. Im Gegensatz zu anderen Bereichen des maschi- 
nellen Lernens findet bestärkendes Lernen nicht mittels vorerzeugter Daten, 
sondern in einem Prozess der Interaktion mit der Daten-erzeugenden Umge- 
bung statt. Die durchgeführten Untersuchungen zeichnen sich gegenüber ei- 
nem Großteil der verwandten Arbeiten durch hohe rechnerische Kosten zur 
Darstellung der Umgebung durch physikalische Simulation aus. Insbesondere 
die Simulation des Tiefziehprozesses ist trotz des reduzierten Geometriemo- 
dells rechnerisch aufwändig. Zentrale Zielstellungen der in 4.3.5 geschilderten 
Softwarearchitektur, neben der Reproduzierbarkeit, ist deshalb die Fähigkeit, 
Experimente parallel durchzuführen und die Wiederverwertbarkeit von Simu- 
lationsergebnissen sicher zu stellen. Durch die Unterstützung der OpenAI Gy- 
mar Schnittstelle wird die Instanziierung neuer Prozesssimulationen und die 
Evaluation neuer Methoden des bestärkenden Lernens vereinfacht. 

Die wichtigsten methodischen Beiträge der Arbeit sind im Folgenden zusam- 


menfassend aufgelistet: 


1. Die Entwicklung von BFHNQ als dateneffizienter Algorithmus zur mo- 
dellfreien Lösung partiell beobachtbarer Entscheidungsprobleme mit 


festem Zeithorizont. 


2. Die Entwicklung einer multikriteriellen Erweiterung des BFHNQ Algo- 
rithmus zum Umgang mit sich ändernden Gewichtungen der Optimie- 


rungskriterien. 


3. Die Beschreibung der Prozessoptimierung im Kontext der Inversen Op- 
timierung der Kausalitätskette Prozess, Material-Struktur, Material-Ei- 
genschaften als Markov Entscheidungsprozess und die Entwicklung ei- 


nes Ansatzes zur modellfreien Lösung. 


4. Die Definition von Markov Entscheidungsprozessen mit mehreren äqui- 
valenten Zielen und die Entwicklung eines Ansatzes zum dateneffizien- 


ten Umgang mit derartigen Problemen. 
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5. Die Entwicklung einer 77-Distanzfunktion für kristallographische Tex- 


turen. 


Diese methodischen Erweiterungen sind zentrale Bausteine einer intelligenten, 
autonom lernenden Fertigung. Diese lernt unter der Vorgabe der Zieleigen- 
schaften des Produkts eine adaptive Strategie zur Erreichung der fiir das Ziel 
erforderlichen Bauteileigenschaften und Material-Struktur. Mögliche Anknüp- 
fungspunkte weiterer Forschung zur Erreichung dieses übergreifenden Ziels 


werden im folgenden Abschnitt geschildert. 


6.2 Zusammenführung und Erweiterung 
der entwickelten Methoden 


Die Problemklassen partiell-beobachtbare Fertigungsprozesse unter stochasti- 
schen Einflüssen und Struktur-geleitete Optimierung von Fertigungsprozessen 
werden in der Arbeit weitgehend getrennt voneinander in den Kapiteln 4 und 5 
behandelt. Während in Kapitel 4 die online Anwendbarkeit auf Fertigungspro- 
zesse mit damit verbundenen Besonderheiten wie partieller Beobachtbarkeit 
und stochastischen Prozessbedingungen im Mittelpunkt steht, liegt in Kapitel 
5 der Fokus auf den Besonderheiten bei der Definition des Optimierungsziels 
im Raum der Material-Strukturen. 

Neben Einzelprozessen sind die in dieser Arbeit vorgestellten Methoden durch 
geringfügige Anpassungen auch auf Prozessketten anwendbar. Voraussetzung 
hierfür ist, dass ein gemeinsamer Zustandsraum S (beziehungsweise eine ge- 
meinsame Form der Zustandsbeschreibung s oder pseudo-Zustandsbeschrei- 
bung si gefunden werden kann, der es erlaubt, alle Prozesse der Kette als 
Markov-Entscheidungsprozess zu formulieren. Im Fall der Struktur-geleiteten 
Optimierung ist dies ohne weiteres gegeben, da die Zustandsbeschreibung im 


Wesentlichen aus der Beschreibung der aktuellen Material-Struktur besteht. 
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Wie eingangs in 2.2.1 besprochen, erlaubt die Definition als Markov-Ent- 
scheidungsprozess die Nutzung Zustands-abhängiger Aktionsräume Aş. Die 
Bellman-Optimalitätsgleichungen und darauf basierende bewertungsbasierte 
Algorithmen sind auf diesen Fall direkt übertragbar und auch approximative 
Algorithmen können durch geringfügige Anpassungen weiterverwendet wer- 
den (siehe beispielsweise [32]). Diese Flexibilität ermöglicht die Anwendung 
der Methoden zur Optimierung vordefinierter Ketten von unterschiedlichen 
Fertigungsprozessen (beispielsweise Wärmebehandlung und Deformation von 
Stahl). Darüber hinaus kann auch die Reihenfolge der Prozessausführungen 
selbst als Teil des Entscheidungsproblems gesehen, und durch den Agenten 
optimiert werden. 

Obwohl die in Kapitel 5 entwickelten Algorithmen zur Struktur-geleiteten 
Optimierung von Fertigungsprozessen (SGPPO-Algorithmen) im Rahmen der 
Arbeit anhand eines deterministischen Prozesses untersucht wurden, sind sie 
grundsätzlich auch auf stochastische Entscheidungsprozesse online anwend- 
bar, da alle Entscheidungen auf Basis der Bewertungsfunktionen getroffen wer- 
den (insbesondere auch die Wahl der Zielstruktur im Fall des MEG-SGPPO). 
Eine wichtige Voraussetzung hierbei ist die Beobachtbarkeit der aktuellen Mi- 
krostruktur in jedem Zeitschritt zur Berechnung der umgeformten Belohnung 
und als Grundlage der Zustandsbeschreibung. Dies ist bei der online-Optimie- 
rung, wie sie in Kapitel 4 behandelt wurde, häufig nicht der Fall. Anders als 
bei den in Kapitel 4 entwickelten Methoden muss für die SGPPO-Algorithmen 
allerdings die explizite Beschreibung der Material-Struktur als Zustandsbe- 
schreibung gegeben sein und eine künstliche Beschreibung, für die die Markov- 
Annahme getroffen wird, reicht nicht aus. Eine modellbasierte Möglichkeit, die 
explizite Beschreibung im partiell beobachtbaren Fall zu approximieren, ist die 
Nutzung eines gelernten oder explizit modellierten Beobachtungsmodells als 
Punktschätzer der aktuellen Material-Struktur (siehe 2.3.1). 
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Generalisierte Aktions-Bewertungsfunktion Q, : Sx A x G —> 
R 

Approximierte Aktions-Bewertungsfunktion Q(s,a, 0) 
Approximierte Generalisierte Aktions-Bewertungsfunktion 
Q(s,a,g, 0) 

Zeitschritt-abhängige Approximation der Q-Funktion 
Darstellung einer Orientierung A als Einheitsquaternion q(A) = 
q 

Elemente eines Einheitsquaternion q; € R4, ||qr||, = 1 
Belohnungsfunktion 

Zielabhängige Belohnungsfunktion 

Umgeformte Belohnungsfunktion (potential based reward 


shaping) 


175 


Abkiirzungs- und Symbolverzeichnis 


M M a 


Ue, Ve 
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Umgeformte Zielabhängige Belohnungsfunktion (potential 
based reward shaping) 

Vektorwertige Belohnungsfunktion R : S — R” 
Belohnungssignal r € R (ggf. in Zeitschritt t) 

Ertrag: Summe der zukünftigen diskontierten Belohnungssi- 
gnale 

Mittlerer beobachteter Ertrag 

Varianz des beobachteten Ertrags 

Belohnungsvektor t € R” 

Rotationsmatrix R € Hi? 

Menge der Zustände eines Markov-Entscheidungsprozesses 
Abstraktes Zustandssymbol; s; Zustand zum Zeitschritt t; s’ 
Nachfolgezustand 

Vektorrepräsentation eines Zustandes s € R” 

Menge der möglichen Zustände eines Markov-Entscheidungs- 
prozesses zum Zeitschritt t 

Repräsentative Menge von Zustandsbeschreibungen s 
Menge der Terminal-Zustände eines Markov-Entscheidungs- 
prozesses 

Terminal-Zustand 

Pseudo-Zustandsbeschreibung 

Pseudo-Zustandsraum 

Zeitschritt t € Nọ 

Finaler Zeitschritt eines MDP mit festem Zeithorizont T € 
N*, Maximaler Zeitschritt eines MDP mit endlichem Zeitho- 
rizont T € Nt 


Generalized Spherical Harmonics 
Gleichverteilung, U(a,b): stetig, über dem Intervall [a,b]; 
Un: Gleichverteilung über der Menge M 


Position in u-Richtung bzw. v-Richtung 


Abkiirzungs- und Symbolverzeichnis 


V, Vz Zustands-Bewertungsfunktion V : S > R; in 5.3.3 und An- 
hang A.0.1: Gesamtvolumen einer Textur 

Vi Zustands-Bewertungsfunktion der optimalen Strategie 2" 

Ve Generalisierte Zustands-Bewertungsfunktion V; : Sx G —> R 

y Approximierte Zustands-Bewertungsfunktion V (s, 0) 

v Approximierte Generalisierte Zustands-Bewertungsfunktion 
V(s,g, 0) 

H Zeitschritt-abhängige Approximation der Zustands-Bewer- 
tungsfunktion 

V(A) Volumen einer Textur mit Orientierung A 

w Gewichte der Belohnungs-Terme w € [0, 1] 

Wa Zuweisungsvektor der Kristallorientierung A 

Wa Geglätteter Zuweisungsvektor der Kristallorientierung A 

X,Xy,XQ Eingangsdaten zum Training einer Funktionsapproximation 

y.yv.Yo Ausgangsdaten zum Training einer Funktionsapproximation 

Griechische Symbole 

a Lernrate bei Algorithmen des bestärkenden Lernens o € (0, 1] 

OPER Parameter des prioritized experience replay 

Bo Parameter des prioritized experience replay 
Menge unterschiedlicher Zielstrukturen 

y Diskontierungsfaktor eines Markov-Entscheidungsprozesses 
ye (0, 1] 

E Explorationsrate bei €-greedy Algorithmen € € [0, 1] 

č Explorationsrate bei der Zielstrukturwahl 

En Initiale Explorationsrate 

Ef Finale Explorationsrate 

Ei Zerfallsrate von € 

čo Initiale Explorationsrate bei der Zielstrukturwahl 

& Finale Explorationsrate bei der Zielstrukturwahl 


GSH-Repräsentation einer Textur Cie) 
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SW 


> E > 


Bal A aaa 
al 
* 


xO 
a 
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numerische Repräsentation einer Struktur 7 : X > R” 
Parameter eines ktinstlichen neuronalen Netzes 
Zieleigenschaft kK € R” 

Repräsentative Stichprobe von Kristallorientierungen A einer 
ODF 

Allgemeine Orientierung A € SO(3) 

Reibungskoeffizient 

Menge von Observationen o € A 

nichtdeterministische Strategie 7:S x A — [0,1] 
deterministische Strategie 7:5—A 

explorative Lernstrategie 

optimale nichtdeterministische / deterministische Strategie 
Optimale Strategie für die Zielstruktur Ke 

Material-Struktur o € %, Standardabweichung 

Zielstruktur 

Der Zielstruktur nächste Erreichbare Struktur 

Durch einen Prozess am besten erreichbare Struktur in G 
Schätzung der am besten erreichbaren Struktur in G 

g zugehörige Zielstruktur 

beste bisher gefundene Ergebnis-Textur nach Episode e 
Ergebnis-Textur des besten Teilpfades in Episode e 

Menge der Elemente eines Strukturraumes 

Durch einen Prozess erreichbare Strukturen 

Menge der in Episode e erreichten Strukturen 
Zustands-Potentialfunktion ®:S—R 

Distanzmetrik für Orientierungen d ` SO(3) x SO(3) + Rj 
Minimale Distanz aller Equivalenten Orientierungen bezüg- 
lich des Kristallsystems Q da ` SO(3) x SO(3) > R 
Distanzmaß fiir Orientierungshistogramme 

Vic (A) bildet auf die Menge aller equivalenten Orientierun- 


gen bezüglich des Kristallsystems Q ab 


Abkiirzungs- und Symbolverzeichnis 


Q 


Kristallsystem 


Operatoren und Sonstige Symbole 


|M]; 


lvli; 


so(3) 


Va $ Vb 


Abkiirzungen 
ABDP 
BFHNQ 

BHF 

DQN 

FEM 

GSH 


Lid. 
L-BFGS 


MDP 
MEG-MDP 


MEG-SGPPO 
MOFQ 


MPC 
MSE 


Frobeniusnorm der Matrix M 

i-Norm des Vektors v 

Einsvektor 1, € R” 

Nabla Differentialoperator 
Determinationskoeffizient 

Gruppe der 3D Rotationen 

Vektor Konkatenation e er R” x R” — min 


Approximate Backward Dynamic Programming Algorithmus 
Backward Fixed Horizon Neural Q-Learning Algorithmus 
Niederhaltekraft (Blank Holder Force) 

Deep Q-Network Algorithmus 

Methode der Finiten Elemente 

Generalized Spherical Harmonics (Generalisierte Kugelflä- 
chenfunktionen) 

Unabhängig, identisch verteilt (independent, identically dis- 
tributed) 

Limited-Memory Broyden-Fletcher-Goldfarb-Shanno Algo- 
rithmus 

Markov-Entscheidungsprozess (Markov Decision Process) 
Markov-Entscheidungsprozess mit mehreren äquivalenten Zie- 
len (multi-equivalent goal MDP) 

Multi-Equivalent-Goal Structure-Guided Processing Path Op- 
timization Algorithmus 

Multi-Objective Fitted O-Iteration Algorithmus 

Model Predictive Control 

Mittlerer Quadratischer Fehler (Mean Squared Error) 


179 
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NFQ Neural Fitted Q-Iteration Algorithmus 
ODF Orientierungsdichteverteilungsfunktion (Orientation Distri- 


bution Function) 


ReLU Rectified Linear Unit 
SG-SGPPO Single-Goal Structure-Guided Processing Path Optimization 
Algorithmus 
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A.0.1 Orientierungsdichteverteilungsfunktionen 
und Generalized Spherical Harmonics 


Generalized Spherical Harmonics (GSH) sind generalisierte Kugelflächen- 
funktionen und werden zur Beschreibung von Orientierungsdichteverteilungs- 
funktionen (engl. Orientation Distribution Function, ODF, [113] Seite 42 ff.) 
im Spektralraum verwendet. Die Orientierungsdichteverteilungsfunktion ODF 
O(A) stellt die empirische Wahrscheinlichkeitsdichte einer Stichprobe von 


Kristallen im Orientierungsraum SO(3) dar 


| 


O(A)dA mit = F(A)AA =1, (A.1) 


wobei V(A) das kumulierte Volumen der Kristalle mit Orientierung A € SO(3) 
und V das Gesamtvolumen der Stichprobe repräsentiert. 

Durch Kristall- und Probensymmetrie existieren äquivalente Regionen in SO(3). 
Diese können auf eine Fundamentalregion abgebildet werden, sodass eine 
ODF O(A) von auf die Fundamentalregion abgebildeten Orientierungen A 
von O(A) physikalisch nicht unterscheidbar ist. 


Die symmetrisierte Spektralraumdarstellung 


oo Vee er 
Gitt K C/T) (A.2) 
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fiir die Kugelflachenfunktionen T ermöglicht eine niedrig-dimensionale Re- 
präsentation von O(A) in Form der Koeffizienten c} . Durch die Berücksich- 
tigung der Kristall- und Probensymmetrie wird die Anzahl der Koeffizienten 


reduziert. M (l) ist dabei die Anzahl der linear unabhängigen Kugelflächen- 


funktionen Tř bezüglich der vorliegenden Kristallsymmetrie und N(/) die An- 
zahl der linear unabhängigen Kugelflächenfunktionen bezüglich der vorliegen- 


den Probensymmetrie. Eine tiefergehende Einführung der GSH und die Erläu- 


terung der Symmetrie-Spezifischen Auswahl der Kugelflächenfunktionen T 
findet sich in dem Textbuch Texture analysis in materials science: mathemati- 
cal methods ([113] Seite 47 ff.). 

In Abhängigkeit des Szenarios wird die Reihe (A.2) abgeschnitten und die Ko- 
effizienten werden bis zu einem Grad L berücksichtigt. In der Arbeit repräsen- 
tiert €(o) den Vektor der GSH Koeffizienten GA mit / < L Für eine Textur o 
mit dem Kristallsystem Q. 


A.0.2 Künstliche neuronale feedforward Netze zur 
Funktionsapproximation 


In diesem Kapitel werden tiefe künstliche neuronale feedforward Netze wie sie 
in dieser Arbeit zur Funktionsapproximation verwendet werden behandelt. Ab- 
weichende Strukturen von neuronalen Netzen, wie rekurrente neuronale Net- 
ze, sowie spezialisierte Netzschichten zur Verarbeitung strukturierter Daten, 
wie beispielsweise 2D-Faltungsschichten, spielen in dieser Arbeit keine di- 
rekte Rolle, weshalb an dieser Stelle auf die ausführliche Darstellung in [7] 
verwiesen wird. 

Künstliche neuronale feedforward Netze sind generelle Methoden zur üblicher- 
weise nicht-linearen Approximation von Funktionen y = f(x). Ein kiinstliches 
neuronales feedforward Netz stellt eine Abbildung § = f(x, 0) dar. Gradien- 


tenbasierte Optimierung und der backpropagation Algorithmus werden genutzt 
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um die Parameter @ aus Daten zu lernen, sodass die Approximation f die, üb- 
licherweise unbekannte, zu approximierende Funktion f annähert. 

Ein künstliches neuronales feedforward Netz besteht aus mehreren aufeinan- 
derfolgenden Neuronen-Schichten (engl Layer). Jede Schicht stellt eine vor- 
erst eigenständige Funktion $ = f (i) (x,0;) mit Funktionsparametern 6; dar. 
Der Informationsfluss bei einem feedforward Netz läuft gerichtet von der Ein- 
gangsschicht (hier f (0)) durch versteckte Schichten (hier f ()) hin zur Ausgabe- 
schicht (hier f (2)), so dass das feedforward Netz auch als geschachtelte Funk- 
tion f(x,@) = FO (fl) (FO (x), 01), @2) für 0; C @ betrachtet werden kann. 
Die Anzahl der Schichten macht die „tiefe“ des Netzes aus, die Anzahl der 
Neuronen pro Schicht die „weite“ des Netzes. Der Begriff tiefes neuronales 
Netzwerk und davon abgeleitete Begriffe wie tiefes Maschinelles Lernen (engl. 
deep learning) oder tiefes bestärkendes Lernen beziehen sich auf diesen Begriff 
der „Tiefe“ [7]. In dieser Arbeit werden im Folgenden künstliche neuronale 
feedforward Netze als Standardform angesehen und als künstliche neuronale 
Netze oder kurz als Netze bezeichnet. Im Rahmen der Arbeit werden neurona- 
le Netze verwendet um beschränkte reelwertige Funktionen f : R” + R” zu 
approximieren. Die folgende formale Einführung geht von diesem Fall aus. 
Die Eingabeschicht entspricht in der hier verwendeten Darstellung der Identi- 
tätsabbildung f() : R” > R”. Die versteckte Schicht DI! : R” — RX besteht 
aus einer linearen Transformation mit anschließender Anwendung einer Nicht- 
linearität h, auch Aktivierungsfunktion genannt 


„T 


y=A(W® x4"), (A.3) 


wobei (wi) ; MR = 0). Im hier beschriebenen allgemeinen Fall wird üblicher- 
weise die rectifying Linear Unit (ReLU) als Nichtlinearität verwendet. Ele- 
mentweise ist die ReLU definiert als h(z;) = max[0,z;]. Die Ausgabeschicht 
f sR‘ Dm entspricht im Fall der Regression einer weiteren linearen Trans- 


formation 
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§ = We) x+b2), (AA) 


wobei (W b(?)) = &. 


Das Beispielnetz zur Regression f ist zusammenfassend definiert durch 


§ = Ww?) (we 4b) +b. (A.5) 


Weitere versteckte Schichten können zur Erhöhung der Modellkapazität einge- 
fügt werden. Das ursprüngliche universal approximation theorem [114] besagt, 
dass beliebige Borel-messbare Funktionen durch neuronale Netze mit linea- 
rer Ausgabefunktion und mindestens einer versteckten Schicht mit einer soge- 
nannten squashing-Aktivierungsfunktion durch Verbreiterung der versteckten 
Schicht beliebig genau repräsentiert werden können. In [115] wurde die Gültig- 
keit des Theorems auch für Netze mit nicht-polynomialer Aktivierungsfunkti- 
on nachgewiesen. Der hier betrachtete Fall beschränkt reelwertiger Funktionen 
f: R” — R” ist Borell-messbar (vgl. [7], Kap. 6.4.1). 

Zum Anpassem der Parameter @ des neuronalen Netzes mittels eines Daten- 
satzes D potentiell verrauschter Stichproben (x,y), dem sogenannten Training, 
wird eine Kostenfunktion benötigt und ein gradientenbasierter Optimierungsal- 
gorithmus in Kombination mit dem backpropagation Verfahren zur Ableitung 
der Netzparameter bezüglich einer Kostenfunktion angewandt. Eine Grund- 
annahme beim Training ist, dass Stichproben (x,y) im Trainingsdatensatz D 
unabhängig voneinander gezogen wurden und aus einer identischen Verteilung 
Pjata stammen (üblicherweise, sowie in der Arbeit als i.i.d. Annahme für inde- 
pendent, identically distributed). 

Das Lernen von Parametern 0 eines neuronalen Netzes unterscheidet sich von 
anderen Optimierungsproblemen darin, dass die Kostenfunktion J(0) auf Ba- 
sis der Trainingsdaten (x,y) € D formuliert und minimiert wird, das eigentliche 


Lernziel aber die Minimierung der erwarteten Kosten bezüglich der Gesamt- 


verteilung J(0) = Ex y)~p,,,,[¢] ist (vgl. [7], Kap. 6.4.1). Die Minimierung der 
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auf Basis der Trainingsdaten berechneten Surrogat-Kosten ohne Berücksich- 
tigung des eigentlichen Lernziels kann bei ausreichender Anzahl von Parame- 
tern zur Uberanpassung (engl. Overfitting) des Neuronalen Netzes führen. Dem 
wird durch Regularisierung des Netzes (siehe [7] Kap. 7) begegnet. 

Eine typische Kostenfunktion zum Lernen von Neuronalen Netzen setzt sich 
aus einem Datenterm und einem oder mehreren Termen zur Regularisierung 
der Netzparameter zusammen. Eine gängige Wahl des Datenterms zur reellwer- 
tigen Funktionsapproximation mittels neuronaler Netze ist der mittlere Quadra- 
tische Fehler (Mean Squared Error, kurz MSE). Unter der Annahme, dass die 
Daten einer Normalverteilung Pyaa(y|x) = N (f(x), o?) folgen, ist die Mini- 
mierung des MSE äquivalent zur maximum Likelihood Schätzung der Modell- 
parameter. 

Der Backpropagation Algorithmus wird beim Training von neuronalen Netzen 
zur effizienten Berechnung der Gradienten der Kostenfunktion bezüglich der 
Netzparameter V9J(0) genutzt. Hierbei werden die Parameter durch Anwen- 
dung der Kettenregel Schicht für Schicht, ausgehend von der Ausgabeschicht, 
berechnet (siehe [7], Kapitel 6.5). 

Deterministische Batch Optimierungsverfahren nutzen den gesamten Trai- 
ningsdatensatz D bei der Berechnung der Gradienten und zum Update der 
Parameter in jedem Trainingsschritt. Hierzu muss der gesamte Datensatz zum 
parameter-Update im Hauptspeicher gehalten werden. Im Gegensatz dazu wer- 
den bei stochastischen Verfahren in jedem Trainingsschritt die Paramterer ba- 
sierend auf einer Teilmenge der Trainingsdaten aktualisiert. Verfahren die nur 
ein einzelnes Sample zum Update verwenden werden auch online-Verfahren 
genannt. Zum Training tiefer neuronaler Netze wird meist eine dazwischen- 
liegende Strategie angewendet, indem die Updates basierend auf einer Menge 
aus mehreren Samples, sogenannter mini-Batches, durchgeführt werden. 

Im Rahmen der vorliegenden Arbeit werden Limited-Memory Broyden — Flet- 
cher — Goldfarb — Shanno (L-BFGS) [116] und Adaptive Moment Estimation 
(Adam) [117] zum Training der neuronalen Netze verwendet. L-BFGS ist ein 


batch-Verfahren und der Familie der quasi-Newton Methoden zuzurechnen. Es 
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approximiert die inverse Hesse Matrix ohne die Notwendigkeit diese explizit 
zu repräsentieren. Für das Lernen von Neuronalen Netzen mit geringer Parame- 
teranzahl mit nur wenigen Trainingsdaten ist L-BFGS häufig anderen Verfah- 
ren überlegen [118]. Adam ist ein stochastisches Gradientenabstiegsverfahren, 
das basierend auf mini-Batches und einer adaptiven Schätzung der Momente 
erster und zweiter Ordnung der Gradienten operiert. Adam wird, neben ande- 
ren stochastischen Gradientenabstiegsverfahren, zum Lernen tiefer neuronaler 


Netze mittels umfangreicher Datensätze verwendet [119]. 
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B.0.1 Detaildarstellung der Optimierung im 
deterministischen Fall 


Ergänzend zu der Darstellung der Ergebnisse im deterministischen Fall in 
4.4.2, sind in den Abbildungen B.1 und B.2 ein charakteristischer Optimie- 
rungslauf des Hill-Climbing Ansatzes und ein charakteristischer Lernvorgang 
des BFHNQ Algorithmus dargestellt. Dargestellt sind die fiinf Aktionen ag bis 
a4 und die erhaltene Belohnung pro Episode während der Optimierung, mit 
dem Ziel einen der vier besten Prozesspfade für die gegebene Belohnungs- 
funktion (siehe Abbildung 4.11) zu ermitteln. Quantitative Ergebnisse für je- 
weils 100 unabhängige Optimierungsläufe mit derselben Zielstellung sind in 
Abbildung 4.12, rechts dargestellt. In den fünf abgebildeten Bereichen der Ab- 
bildungen B.1 und B.2 werden, pro Episode, die Aktionen ao bis a4 durch den 
Farbwert der Punkte kodiert und die am Ende der Episode erhaltene Belohnung 
durch die vertikale Lage der Punkte kodiert dargestellt. 
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Abbildung B.1: Exemplarischer Optimierungslauf des Hill-Climbing Ansatzes als Ergänzung zu 
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den in 4.4.2 dargestellten quantitativen Ergebnissen. 
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Abbildung B.2: Exemplarischer Optimierungslauf des BFHNQ Algorithmus als Ergänzung zu 


den in 4.4.2 dargestellten quantitativen Ergebnissen. 


B.0.2 Pareto-Front Abbildungen 


In diesem Abschnitt sind, ergänzend zu Abbildung 4.13, Abbildungen der Hö- 


he der Belohnungsterme tyerbrauch UNd twang für weitere Reibungskoeffizienten 


u dargestellt. Anders als im Fall u = 0.028 Basieren stellen die Abbildungen 


189 


B Weitere Abbildungen 


nicht den gesamten Lösungsraum, sondern nur die während der Untersuchun- 


gen in Kapitel 4.5 simulierten Lösungen dar. Dies sind im Einzelnen: 


e Abbildung B.3 für u = 0.014, basierend auf 8115 simulierten Lösungen. 


e Abbildung B.4 für u = 0.042, basierend auf 8728 simulierten Lösungen. 


Abbildung B.5 für u = 0.056, basierend auf 4554 simulierten Lösungen. 


Abbildung B.6 für u = 0.07, basierend auf 1761 simulierten Lösungen. 


Für die näherungsweise Darstellung des Lösungsraums für Reibungskoeffizi- 
enten größer u = 0.07 sind nicht ausreichend Simulationsergebnisse vorhan- 
den. Bei einem Reibungskoeffizienten von u = 0.056 oder höher tritt bei ei- 
nigen Prozesssimulationen durch zu hohe Niederhaltekräfte Rissbildung auf. 
Dies spiegelt sich bei den Belohnungstermen darin wider, dass twang sehr ne- 
gative Werte annimmt. Diese Lösungen liegen außerhalb des dargestellten Be- 


reichs, der für die entsprechende Achse auf den Minimalwert —1 begrenzt ist. 


Lösung 
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Abbildung B.3: Erzielte Belohnungsterme twand, tverbrauch pro Lösung fiir den Reibungskoeffizi- 
enten u = 0.014. 
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Abbildung B.4: Erzielte Belohnungsterme twand, Tverbrauch pro Lösung für den Reibungskoeffizi- 


enten u = 0.042. 
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Abbildung B.5: Erzielte Belohnungsterme twand, Tverbrauch pro Lösung für den Reibungskoeffizi- 


enten u = 0.056. 
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Abbildung B.6: Erzielte Belohnungsterme twand, tverbrauch pro Lösung für den Reibungskoeffizi- 
enten u = 0.07. 
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